Descargar modelos Gemma 4

Los pesos del modelo Gemma 4 están disponibles gratis desde múltiples fuentes oficiales. Ya sea que necesites pesos en precisión completa para investigación, archivos GGUF cuantizados para inferencia local o modelos empaquetados para Ollama, esta guía cubre cada opción de descarga.

Todos los modelos Gemma 4 se publican bajo la licencia Apache 2.0, lo que significa que puedes descargarlos, usarlos, modificarlos y redistribuirlos libremente para cualquier propósito — incluidas aplicaciones comerciales.

Fuentes de descarga oficiales

Hugging Face

La plataforma principal para los pesos del modelo Gemma 4. Ofrece todas las variantes en múltiples formatos, incluyendo SafeTensors, GGUF y versiones cuantizadas GPTQ. Admite descargas basadas en git, el CLI de Hugging Face y descargas directas desde el navegador.

• Todas las variantes y tamaños del modelo
• Múltiples formatos de cuantización
• Descargas con Git LFS y CLI
• Cuantizaciones aportadas por la comunidad
• Model cards con documentación

Kaggle

La plataforma de ciencia de datos de Google aloja los pesos oficiales del modelo Gemma 4. Cómodo para usuarios que ya están en el ecosistema Kaggle, con integración de notebooks para experimentación rápida.

• Distribución oficial de Google
• Integración con notebooks
• Seguimiento de versiones
• Descarga directa
• downloadGuide.sources.kaggle.features.4

Biblioteca de Ollama

Modelos Gemma 4 preempaquetados optimizados para inferencia local con Ollama. Descarga y ejecución con un solo comando. Los modelos se cuantizan y optimizan automáticamente para tu hardware.

• Instalación con un solo comando
• Optimización automática para tu hardware
• Todas las variantes disponibles
• Actualizaciones automáticas
• downloadGuide.sources.ollama.features.4

ModelScope (魔搭社区)

Plataforma de hosting de modelos con base en China con velocidades de descarga rápidas para usuarios en Asia. Refleja los modelos oficiales de Gemma 4 con documentación completa en chino.

• Descargas rápidas en China/Asia
• Documentación en chino
• Descargas basadas en git
• Modelos de la comunidad
• downloadGuide.sources.modelscope.features.4

Guía de formatos del modelo

Entendiendo los diferentes formatos de archivo del modelo disponibles para Gemma 4:

SafeTensors (.safetensors)

El formato por defecto en Hugging Face. Tensores seguros y de carga rápida diseñados para prevenir vulnerabilidades de ejecución de código. Usado con Hugging Face Transformers, vLLM y otros frameworks basados en Python.

Investigación, fine-tuning, frameworks de Python, servicio con vLLM

GGUF (.gguf)

El formato estándar para llama.cpp y Ollama. Admite varios niveles de cuantización (Q4, Q5, Q8, etc.) para reducir el tamaño del modelo y los requisitos de memoria. Optimizado para inferencia en CPU y CPU/GPU mixta.

Inferencia local, Ollama, llama.cpp, KoboldCpp, LM Studio

GPTQ

Formato de cuantización optimizado para GPU que mantiene alta precisión mientras reduce significativamente los requisitos de VRAM. Disponible a través de contribuciones de la comunidad en Hugging Face.

Inferencia en GPU con VRAM reducida, servicio en producción

Formato MLX

Formato nativo de ML de Apple optimizado para Apple Silicon (M1/M2/M3/M4). Aprovecha la arquitectura de memoria unificada para una inferencia eficiente en hardware Mac.

Mac con Apple Silicon, framework MLX

Guía de cuantización

La cuantización reduce el tamaño del modelo y el uso de memoria a costa de algo de precisión. Así se comparan los diferentes niveles para Gemma 4:

Format	Bits	Quality	Notes
BF16 / FP16 (precisión completa)	16 bits	100%	Calidad completa del modelo sin pérdida de precisión. Requiere la mayor VRAM y espacio en disco.
INT8 / Q8	8 bits	~98-99%	Pérdida mínima de calidad. Reduce a la mitad los requisitos de VRAM comparado con FP16. Recomendado para la mayoría de los despliegues en GPU.
Q5_K_M	5 bits	~95-97%	Buen balance de calidad y tamaño. Elección popular para inferencia local con formato GGUF.
INT4 / Q4_K_M	4 bits	~93-95%	Reducción significativa de tamaño con calidad aceptable para la mayoría de los casos de uso. Permite ejecutar modelos más grandes en hardware de consumo.

Descargar vía línea de comandos

CLI de Hugging Face

Instala el CLI de Hugging Face y descarga modelos directamente:

pip install huggingface_hub

# Download a specific model
huggingface-cli download google/gemma-4-31b

# Download GGUF quantized version
huggingface-cli download google/gemma-4-31b-GGUF \
  --include "gemma-4-31b-Q4_K_M.gguf"

Git LFS

Clona los repositorios del modelo con Git Large File Storage:

git lfs install
git clone https://huggingface.co/google/gemma-4-31b

CLI de Ollama

Descarga modelos directamente en Ollama:

# Pull any variant
ollama pull gemma4:e4b
ollama pull gemma4:31b
ollama pull gemma4:26b

Preguntas frecuentes sobre descarga

¿Cuál es el mejor lugar para descargar Gemma 4?

Hugging Face es la fuente más completa con todos los formatos y variantes. Para configuración local con un solo comando, usa Ollama. Para usuarios en China, ModelScope ofrece velocidades de descarga más rápidas.

¿Qué formato debo descargar?

Para Ollama o llama.cpp: descarga archivos GGUF. Para Python/vLLM: usa el formato SafeTensors. Para Mac con Apple Silicon: usa el formato MLX. Si no estás seguro, empieza con Ollama que maneja la selección de formato automáticamente.

¿Qué tan grandes son los archivos del modelo Gemma 4?

Tamaños en precisión completa: E2B (~4GB), E4B (~8GB), 26B MoE (~52GB), 31B Denso (~62GB). Las versiones cuantizadas Q4 son aproximadamente 4 veces más pequeñas. Las descargas por defecto de Ollama usan cuantización optimizada.

¿Necesito una cuenta de Hugging Face para descargar?

No. Los modelos Gemma 4 son públicamente accesibles bajo la licencia Apache 2.0. Puedes descargar sin una cuenta, aunque tener una permite descargas más rápidas y acceso al CLI de Hugging Face.

¿Qué es un archivo GGUF?

GGUF (GPT-Generated Unified Format) es un formato binario diseñado para inferencia local eficiente con llama.cpp y Ollama. Admite varios niveles de cuantización, permitiéndote intercambiar precisión por tamaños de archivo más pequeños y menor uso de memoria.

¿Puedo descargar Gemma 4 en China?

Sí. ModelScope (魔搭社区) refleja los modelos Gemma 4 con velocidades de descarga rápidas dentro de China. Alternativamente, usa un mirror o proxy para las descargas de Hugging Face.

downloadGuide.faq.items.6.q

downloadGuide.faq.items.6.a

downloadGuide.faq.items.7.q

downloadGuide.faq.items.7.a

downloadGuide.faq.items.8.q

downloadGuide.faq.items.8.a

downloadGuide.faq.items.9.q

downloadGuide.faq.items.9.a

Descarga y despliega

Obtén los pesos del modelo Gemma 4 y empieza a desplegarlo. Revisa nuestra guía de despliegue para instrucciones paso a paso.

Guía de despliegue Comparar modelos Prueba en línea primero