Gemma 4

Ejecuta Gemma 4 con Ollama

Ollama es la forma más rápida y sencilla de ejecutar Gemma 4 en tu propio hardware. Con un solo comando, puedes descargar y comenzar a chatear con cualquier variante del modelo Gemma 4 — sin entorno de Python, sin configuración compleja, sin configuración de GPU requerida.

Ollama detecta automáticamente tu hardware (CPU, GPU, memoria) y optimiza la configuración del modelo para el mejor rendimiento. Soporta macOS, Linux y Windows, y ofrece una API compatible con OpenAI para fácil integración en tus aplicaciones.

Paso 1: Instalar Ollama

macOS

Descárgalo desde ollama.com o instálalo vía Homebrew:

# Homebrew
brew install ollama

# Or download from https://ollama.com/download/mac

Linux

Script de instalación de una línea:

curl -fsSL https://ollama.com/install.sh | sh

Windows

Descarga el instalador desde ollama.com o usa winget:

# winget
winget install Ollama.Ollama

# Or download from https://ollama.com/download/windows

Verifica la instalación:

ollama --version

Paso 2: Elige tu modelo Gemma 4

Todas las variantes de Gemma 4 están disponibles en la biblioteca de Ollama. Elige según tu hardware y necesidades:

gemma4:e2b
~1.5 GBVRAM: 2 GB

Ultraligero para dispositivos de borde y tareas básicas

gemma4:e4b
~3 GBVRAM: 4 GB

Mejor balance de calidad y uso de recursos

gemma4:26b
~15 GBVRAM: 16 GB

Arquitectura MoE — calidad de modelo grande con costo de modelo pequeño

gemma4:31b
~18 GBVRAM: 24 GB

Máxima calidad — modelo denso insignia

Paso 3: Ejecutar Gemma 4

Inicia una sesión de chat interactiva:

# Start interactive chat with Gemma 4 E4B
ollama run gemma4:e4b

# Or the flagship 31B model
ollama run gemma4:31b

Ejecuta un prompt único:

ollama run gemma4:e4b "Explain quantum computing in simple terms"

Usa con imágenes (multimodal):

# In the interactive chat, use /image to add images
ollama run gemma4:e4b
>>> /image photo.jpg What do you see in this image?

Usar la API de Ollama

Ollama ofrece una API REST compatible con OpenAI en localhost:11434, facilitando la integración de Gemma 4 en tus aplicaciones:

Completado de chat:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:e4b",
    "messages": [
      {"role": "user", "content": "Hello, Gemma 4!"}
    ]
  }'

Generación de texto:

curl http://localhost:11434/api/generate \
  -d '{
    "model": "gemma4:e4b",
    "prompt": "Write a Python function to sort a list"
  }'

Configuración avanzada

Modelfile personalizado

Crea un Modelfile personalizado para ajustar parámetros del modelo como temperatura, longitud de contexto y system prompt:

FROM gemma4:e4b

PARAMETER temperature 0.7
PARAMETER num_ctx 32768

SYSTEM """
You are a helpful coding assistant. Always provide code examples.
"""

Configuración de GPU

Ollama autodetecta las GPUs, pero puedes controlar la descarga de capas a la GPU:

# Set number of GPU layers
OLLAMA_NUM_GPU=35 ollama run gemma4:31b

# CPU only mode
OLLAMA_NUM_GPU=0 ollama run gemma4:e4b

Longitud de contexto

Aumenta la ventana de contexto por defecto para conversaciones más largas:

ollama run gemma4:e4b --num-ctx 65536

Solución de problemas

La descarga del modelo es lenta

Ollama descarga desde el CDN de ollama.com. Si es lento, revisa tu conexión a internet o prueba una VPN. Los modelos grandes (26B, 31B) pueden tardar entre 10 y 30 minutos dependiendo del ancho de banda.

Error de memoria insuficiente

Prueba una variante de modelo más pequeña o una versión cuantizada. Usa 'ollama run gemma4:e4b' en lugar del modelo 31B. En sistemas con RAM limitada, cierra otras aplicaciones antes de ejecutar.

Velocidad de inferencia lenta

Asegúrate de que Ollama esté usando tu GPU: verifica con 'ollama ps'. En Mac, Ollama usa aceleración GPU Metal automáticamente. En Linux/Windows, asegúrate de que los drivers de GPU NVIDIA o AMD estén correctamente instalados.

Conexión API rechazada

Asegúrate de que el servicio de Ollama esté corriendo: 'ollama serve'. El endpoint API por defecto es http://localhost:11434. Revisa la configuración del firewall si accedes desde otra máquina.

Preguntas frecuentes de Ollama + Gemma 4

¿Cuál es el mejor modelo Gemma 4 para ejecutar con Ollama?

Para la mayoría de los usuarios, gemma4:e4b ofrece el mejor balance de calidad y rendimiento. Si tienes una GPU con más de 16GB de VRAM, gemma4:26b ofrece calidad cercana al insignia con inferencia MoE eficiente. El modelo gemma4:31b requiere más de 24GB de VRAM pero ofrece el máximo rendimiento.

¿Puedo ejecutar Gemma 4 en Ollama sin una GPU?

Sí. Ollama admite inferencia solo en CPU para todas las variantes de Gemma 4. Los modelos E2B y E4B funcionan razonablemente rápido en CPU. Los modelos más grandes serán significativamente más lentos sin aceleración GPU pero siguen siendo funcionales.

¿Cómo actualizo Gemma 4 en Ollama?

Ejecuta 'ollama pull gemma4:e4b' (o tu variante preferida) para descargar la última versión. Ollama solo descargará las diferencias si ya tienes una versión anterior instalada.

¿Puedo usar Ollama Gemma 4 con otras herramientas?

Sí. La API compatible con OpenAI de Ollama funciona con la mayoría de las herramientas y frameworks de IA, incluyendo LangChain, LlamaIndex, Open WebUI, Continue.dev y muchos más. Solo apúntalos a http://localhost:11434.

¿Ollama soporta las funciones multimodales de Gemma 4?

Sí. Ollama soporta las capacidades multimodales de Gemma 4. Puedes pasar imágenes al modelo usando el comando /image en el chat interactivo o mediante el parámetro image de la API.

¿Cuánto espacio en disco requiere Gemma 4 en Ollama?

El espacio en disco depende de la variante: E2B (~1.5GB), E4B (~3GB), 26B MoE (~15GB), 31B Denso (~18GB). Estos son con la cuantización por defecto. Los modelos se almacenan en ~/.ollama/models en macOS/Linux.

ollamaGuide.faq.items.6.q

ollamaGuide.faq.items.6.a

ollamaGuide.faq.items.7.q

ollamaGuide.faq.items.7.a

ollamaGuide.faq.items.8.q

ollamaGuide.faq.items.8.a

ollamaGuide.faq.items.9.q

ollamaGuide.faq.items.9.a

¿Listo para ejecutar Gemma 4?

Instala Ollama y comienza a chatear con Gemma 4 en minutos. O explora otras opciones de despliegue.