Ejecuta Gemma 4 con MLX en Mac

MLX es el framework de machine learning de Apple creado específicamente para Apple Silicon (M1, M2, M3, M4). Aprovecha la arquitectura de memoria unificada de los chips de Apple para ofrecer un rendimiento de inferencia excepcional — a menudo superando configuraciones basadas en GPU para modelos que caben en memoria.

Gemma 4 funciona excelentemente con MLX, convirtiendo cualquier Mac con Apple Silicon en una estación de trabajo de IA capaz. Esta guía cubre la instalación, la ejecución de todas las variantes de Gemma 4 y la optimización del rendimiento en tu Mac.

¿Por qué MLX para Gemma 4?

Ventaja de la memoria unificada

La arquitectura de memoria unificada de Apple Silicon significa que no hay límite de VRAM de GPU — toda la memoria del sistema está disponible. Una Mac con 64GB de RAM puede cargar y ejecutar modelos que requerirían una GPU de más de $1,500 en PC.

Optimización nativa

MLX está construido por Apple específicamente para Apple Silicon, usando shaders de cómputo Metal y patrones de acceso a memoria optimizados. Consistentemente ofrece mejores tokens por segundo que la inferencia genérica en CPU.

Configuración sencilla

Instala con pip, descarga un modelo y comienza a generar. Sin drivers CUDA, sin contenedores Docker, sin configuración compleja del entorno.

Eficiencia energética

La eficiencia de Apple Silicon significa que puedes ejecutar Gemma 4 durante horas con batería. Ideal para desarrolladores que quieren IA local sin estar atados a un enchufe.

Instalación

Instala mlx-lm, la biblioteca de servicio de modelos de Apple para MLX:

pip install mlx-lm

# Verify installation
python -c "import mlx_lm; print('MLX-LM ready')

Ejecutando modelos Gemma 4

Qué modelos Gemma 4 funcionan bien en qué Macs:

MacBook Air/Pro (8GB)

E2B, E4B (INT4)

E4B en cuantización INT4 cabe cómodamente. Deja espacio para el sistema operativo y las apps.

MacBook Pro (16-18GB)

E2B, E4B, 26B MoE (INT4)

26B MoE en INT4 (~16GB) cabe pero deja poco margen. E4B es el punto ideal.

MacBook Pro / Mac Studio (36-48GB)

Todos los modelos (INT4/INT8)

Cómodo para 26B en INT8. 31B en INT4 cabe con espacio de sobra.

Mac Studio / Mac Pro (64-192GB)

Todos los modelos (todas las precisiones)

Puede ejecutar 31B en FP16. La estación de trabajo Gemma 4 definitiva.

Comandos de MLX

Generación de texto

mlx_lm.generate \
  --model mlx-community/gemma-4-e4b-it-4bit \
  --prompt "Explain quantum computing in simple terms" \
  --max-tokens 512

Chat interactivo

mlx_lm.chat --model mlx-community/gemma-4-e4b-it-4bit

Iniciar servidor API

mlx_lm.server \
  --model mlx-community/gemma-4-e4b-it-4bit \
  --port 8080

# Then use the OpenAI-compatible API:
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "gemma-4-e4b", "messages": [{"role": "user", "content": "Hello!"}]}'

Cuantizar un modelo

mlx_lm.convert \
  --hf-path google/gemma-4-e4b-it \
  --mlx-path ./gemma-4-e4b-4bit \
  -q --q-bits 4

Consejos de rendimiento

Cierra apps que usen mucha memoria

Safari, Chrome y Docker pueden consumir RAM significativa. Ciérralos antes de ejecutar modelos más grandes para maximizar la memoria disponible para MLX.

Usa modelos cuantizados

Usa siempre modelos cuantizados INT4 o INT8 en máquinas con ≤32GB de RAM. La diferencia de calidad es mínima pero los ahorros de memoria son sustanciales.

Ajusta la longitud del contexto

Las ventanas de contexto más largas consumen más memoria. Si te estás quedando sin RAM, reduce la longitud máxima del contexto para liberar memoria para los pesos del modelo.

Monitorea la presión de memoria

Usa el Monitor de Actividad para observar la presión de memoria. Si se pone amarilla/roja, el sistema está usando swap a disco y la inferencia se ralentizará drásticamente. Considera un modelo más pequeño o más cuantización.

Preguntas frecuentes de MLX + Gemma 4

¿Puedo ejecutar Gemma 4 en una Mac Intel?

MLX requiere Apple Silicon (M1 o posterior). Para Macs Intel, usa Ollama o llama.cpp en su lugar, que soportan inferencia en CPU en cualquier Mac.

¿Qué tan rápido es Gemma 4 en MLX?

El rendimiento varía según el modelo y el hardware: E4B en M3 Pro alcanza ~30-40 tokens/segundo. 26B MoE en M3 Max obtiene ~15-20 tok/s. 31B en M2 Ultra entrega ~10-15 tok/s. Estas velocidades son excelentes para uso interactivo.

MLX vs Ollama en Mac — ¿cuál es mejor?

Ambos son excelentes en Mac. Ollama es más simple (configuración con un comando) e incluye un servidor API integrado. MLX ofrece más control, mejor eficiencia de memoria y a menudo inferencia ligeramente más rápida. Para la mayoría de los usuarios, empieza con Ollama; cambia a MLX para el máximo rendimiento.

¿De dónde vienen los modelos MLX?

Los modelos en formato MLX están disponibles en Hugging Face, a menudo subidos por la organización mlx-community. También puedes convertir cualquier modelo SafeTensors al formato MLX usando las herramientas de conversión de mlx-lm.

¿Puedo hacer fine-tuning de Gemma 4 con MLX?

Sí. mlx-lm admite fine-tuning con LoRA en Apple Silicon. Esto te permite personalizar Gemma 4 para tu dominio directamente en tu Mac sin necesidad de un servidor GPU separado.

¿Cuánta RAM necesito para Gemma 4 en Mac?

Mínimo 8GB para E4B en INT4. 16GB para uso cómodo de E4B/26B INT4. 36-48GB para 31B en INT4. 64GB+ para 31B en FP16. Recuerda que macOS usa 3-5GB, así que planifica en consecuencia.

mlxPage.faq.items.6.q

mlxPage.faq.items.6.a

mlxPage.faq.items.7.q

mlxPage.faq.items.7.a

mlxPage.faq.items.8.q

mlxPage.faq.items.8.a

mlxPage.faq.items.9.q

mlxPage.faq.items.9.a

Empieza a ejecutar Gemma 4 en tu Mac

Tu Mac está lista para la IA. Instala MLX, descarga Gemma 4 y comienza a generar.

Descargar modelos Probar Ollama en su lugar Prueba en línea primero