Ejecuta Gemma 4 con Ollama
Ollama es la forma más rápida y sencilla de ejecutar Gemma 4 en tu propio hardware. Con un solo comando, puedes descargar y comenzar a chatear con cualquier variante del modelo Gemma 4 — sin entorno de Python, sin configuración compleja, sin configuración de GPU requerida.
Ollama detecta automáticamente tu hardware (CPU, GPU, memoria) y optimiza la configuración del modelo para el mejor rendimiento. Soporta macOS, Linux y Windows, y ofrece una API compatible con OpenAI para fácil integración en tus aplicaciones.
Paso 1: Instalar Ollama
macOS
Descárgalo desde ollama.com o instálalo vía Homebrew:
# Homebrew
brew install ollama
# Or download from https://ollama.com/download/macLinux
Script de instalación de una línea:
curl -fsSL https://ollama.com/install.sh | shWindows
Descarga el instalador desde ollama.com o usa winget:
# winget
winget install Ollama.Ollama
# Or download from https://ollama.com/download/windowsVerifica la instalación:
ollama --versionPaso 2: Elige tu modelo Gemma 4
Todas las variantes de Gemma 4 están disponibles en la biblioteca de Ollama. Elige según tu hardware y necesidades:
Ultraligero para dispositivos de borde y tareas básicas
Mejor balance de calidad y uso de recursos
Arquitectura MoE — calidad de modelo grande con costo de modelo pequeño
Máxima calidad — modelo denso insignia
Paso 3: Ejecutar Gemma 4
Inicia una sesión de chat interactiva:
# Start interactive chat with Gemma 4 E4B
ollama run gemma4:e4b
# Or the flagship 31B model
ollama run gemma4:31bEjecuta un prompt único:
ollama run gemma4:e4b "Explain quantum computing in simple terms"Usa con imágenes (multimodal):
# In the interactive chat, use /image to add images
ollama run gemma4:e4b
>>> /image photo.jpg What do you see in this image?Usar la API de Ollama
Ollama ofrece una API REST compatible con OpenAI en localhost:11434, facilitando la integración de Gemma 4 en tus aplicaciones:
Completado de chat:
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:e4b",
"messages": [
{"role": "user", "content": "Hello, Gemma 4!"}
]
}'Generación de texto:
curl http://localhost:11434/api/generate \
-d '{
"model": "gemma4:e4b",
"prompt": "Write a Python function to sort a list"
}'Configuración avanzada
Modelfile personalizado
Crea un Modelfile personalizado para ajustar parámetros del modelo como temperatura, longitud de contexto y system prompt:
FROM gemma4:e4b
PARAMETER temperature 0.7
PARAMETER num_ctx 32768
SYSTEM """
You are a helpful coding assistant. Always provide code examples.
"""Configuración de GPU
Ollama autodetecta las GPUs, pero puedes controlar la descarga de capas a la GPU:
# Set number of GPU layers
OLLAMA_NUM_GPU=35 ollama run gemma4:31b
# CPU only mode
OLLAMA_NUM_GPU=0 ollama run gemma4:e4bLongitud de contexto
Aumenta la ventana de contexto por defecto para conversaciones más largas:
ollama run gemma4:e4b --num-ctx 65536Solución de problemas
La descarga del modelo es lenta
Ollama descarga desde el CDN de ollama.com. Si es lento, revisa tu conexión a internet o prueba una VPN. Los modelos grandes (26B, 31B) pueden tardar entre 10 y 30 minutos dependiendo del ancho de banda.
Error de memoria insuficiente
Prueba una variante de modelo más pequeña o una versión cuantizada. Usa 'ollama run gemma4:e4b' en lugar del modelo 31B. En sistemas con RAM limitada, cierra otras aplicaciones antes de ejecutar.
Velocidad de inferencia lenta
Asegúrate de que Ollama esté usando tu GPU: verifica con 'ollama ps'. En Mac, Ollama usa aceleración GPU Metal automáticamente. En Linux/Windows, asegúrate de que los drivers de GPU NVIDIA o AMD estén correctamente instalados.
Conexión API rechazada
Asegúrate de que el servicio de Ollama esté corriendo: 'ollama serve'. El endpoint API por defecto es http://localhost:11434. Revisa la configuración del firewall si accedes desde otra máquina.
Preguntas frecuentes de Ollama + Gemma 4
¿Cuál es el mejor modelo Gemma 4 para ejecutar con Ollama?
Para la mayoría de los usuarios, gemma4:e4b ofrece el mejor balance de calidad y rendimiento. Si tienes una GPU con más de 16GB de VRAM, gemma4:26b ofrece calidad cercana al insignia con inferencia MoE eficiente. El modelo gemma4:31b requiere más de 24GB de VRAM pero ofrece el máximo rendimiento.
¿Puedo ejecutar Gemma 4 en Ollama sin una GPU?
Sí. Ollama admite inferencia solo en CPU para todas las variantes de Gemma 4. Los modelos E2B y E4B funcionan razonablemente rápido en CPU. Los modelos más grandes serán significativamente más lentos sin aceleración GPU pero siguen siendo funcionales.
¿Cómo actualizo Gemma 4 en Ollama?
Ejecuta 'ollama pull gemma4:e4b' (o tu variante preferida) para descargar la última versión. Ollama solo descargará las diferencias si ya tienes una versión anterior instalada.
¿Puedo usar Ollama Gemma 4 con otras herramientas?
Sí. La API compatible con OpenAI de Ollama funciona con la mayoría de las herramientas y frameworks de IA, incluyendo LangChain, LlamaIndex, Open WebUI, Continue.dev y muchos más. Solo apúntalos a http://localhost:11434.
¿Ollama soporta las funciones multimodales de Gemma 4?
Sí. Ollama soporta las capacidades multimodales de Gemma 4. Puedes pasar imágenes al modelo usando el comando /image en el chat interactivo o mediante el parámetro image de la API.
¿Cuánto espacio en disco requiere Gemma 4 en Ollama?
El espacio en disco depende de la variante: E2B (~1.5GB), E4B (~3GB), 26B MoE (~15GB), 31B Denso (~18GB). Estos son con la cuantización por defecto. Los modelos se almacenan en ~/.ollama/models en macOS/Linux.
ollamaGuide.faq.items.6.q
ollamaGuide.faq.items.6.a
ollamaGuide.faq.items.7.q
ollamaGuide.faq.items.7.a
ollamaGuide.faq.items.8.q
ollamaGuide.faq.items.8.a
ollamaGuide.faq.items.9.q
ollamaGuide.faq.items.9.a
¿Listo para ejecutar Gemma 4?
Instala Ollama y comienza a chatear con Gemma 4 en minutos. O explora otras opciones de despliegue.