Guía de despliegue

Ejecuta Gemma 4 localmente en tu propio hardware. Múltiples opciones de despliegue, desde instaladores de un clic hasta frameworks de servicio para producción.

By Ethan Lin·Founder & Open-Source LLM Engineer·Updated 2026-07-08

Ollama

La forma más sencilla de ejecutar Gemma 4 localmente. Un comando para descargar y servir cualquier variante con optimización automática del hardware.

Instalar Ollama

curl -fsSL https://ollama.com/install.sh | sh

Ejecutar modelo

# Gemma 4 31B (Dense) - 最强性能
ollama run gemma4:31b

# Gemma 4 26B (MoE) - 效率优先
ollama run gemma4:26b

# Gemma 4 E4B - 移动/轻量
ollama run gemma4:e4b

# Gemma 4 E2B - 边缘设备
ollama run gemma4:e2b

LM Studio

Aplicación de escritorio con una interfaz visual para descargar, configurar y chatear con los modelos Gemma 4. Excelente para principiantes.

Download LM Studio from lmstudio.ai
Search for "Gemma 4" in the model browser
Select a quantized version matching your VRAM
Click Download and wait for completion
Start chatting in the built-in interface

vLLM

Motor de servicio de producción de alto rendimiento con PagedAttention, procesamiento por lotes continuo y endpoints API compatibles con OpenAI.

pip install vllm
vllm serve google/gemma-4-31b --max-model-len 32768

llama.cpp

Motor de inferencia en C++ optimizado que soporta modelos cuantizados GGUF. Ejecuta Gemma 4 en CPU o configuraciones mixtas CPU/GPU.

# Build llama.cpp
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build && cmake --build build

# Run with GGUF model
./build/bin/llama-cli -m gemma-4-31b-Q4_K_M.gguf -p "Hello"

MLX

Framework nativo de Apple Silicon creado por Apple. Optimizado para chips serie M con memoria unificada, ofreciendo un excelente rendimiento en hardware Mac.

pip install mlx-lm
mlx_lm.generate --model google/gemma-4-31b --prompt "Hello"

Requisitos de VRAM

Uso estimado de VRAM para cada variante del modelo en diferentes niveles de cuantización.

Model	BF16	INT8	INT4
E2B	4 GB	2.5 GB	1.5 GB
E4B	8 GB	5 GB	3 GB
26B MoE	52 GB	28 GB	16 GB
31B Dense	62 GB	33 GB	18 GB

Descargar modelos

Obtén los pesos de los modelos Gemma 4 desde fuentes oficiales.

Guía de despliegue

Ollama

Instalar Ollama

Ejecutar modelo

LM Studio

vLLM

llama.cpp

MLX

Requisitos de VRAM

Descargar modelos

Hugging Face

Kaggle

Ollama

ModelScope