Execute o Gemma 4 com MLX no Mac

O MLX é o framework de machine learning da Apple construído especificamente para Apple Silicon (M1, M2, M3, M4). Ele aproveita a arquitetura de memória unificada dos chips Apple para entregar desempenho de inferência excepcional — muitas vezes superando configurações baseadas em GPU para modelos que cabem na memória.

O Gemma 4 funciona excelentemente com o MLX, tornando qualquer Mac com Apple Silicon uma workstation de IA capaz. Este guia cobre instalação, execução de todas as variantes do Gemma 4 e otimização de desempenho em seu Mac.

Por Que MLX para Gemma 4?

Vantagem da Memória Unificada

A arquitetura de memória unificada do Apple Silicon significa que não há limite de VRAM da GPU — toda a memória do sistema está disponível. Um Mac com 64GB de RAM pode carregar e rodar modelos que exigiriam uma GPU de $1.500+ em um PC.

Otimização Nativa

O MLX é construído pela Apple especificamente para Apple Silicon, usando shaders de computação Metal e padrões de acesso à memória otimizados. Ele consistentemente entrega melhores tokens por segundo do que a inferência genérica em CPU.

Configuração Simples

Instale com pip, baixe um modelo e comece a gerar. Sem drivers CUDA, sem contêineres Docker, sem configuração de ambiente complexa.

Eficiência Energética

A eficiência do Apple Silicon significa que você pode rodar o Gemma 4 por horas na bateria. Ideal para desenvolvedores que querem IA local sem ficar preso a uma tomada de parede.

Instalação

Instale o mlx-lm, a biblioteca de serviço de modelos da Apple para MLX:

pip install mlx-lm

# Verify installation
python -c "import mlx_lm; print('MLX-LM ready')

Executando Modelos Gemma 4

Quais modelos Gemma 4 rodam bem em quais Macs:

MacBook Air/Pro (8GB)

E2B, E4B (INT4)

O E4B em quantização INT4 cabe confortavelmente. Deixe espaço para o SO e apps.

MacBook Pro (16-18GB)

E2B, E4B, 26B MoE (INT4)

O 26B MoE em INT4 (~16GB) cabe, mas deixa pouca folga. O E4B é o ponto ideal.

MacBook Pro / Mac Studio (36-48GB)

Todos os modelos (INT4/INT8)

Confortável para 26B em INT8. 31B em INT4 cabe com folga.

Mac Studio / Mac Pro (64-192GB)

Todos os modelos (todas as precisões)

Pode rodar 31B em FP16. A workstation definitiva para Gemma 4.

Comandos MLX

Geração de Texto

mlx_lm.generate \
  --model mlx-community/gemma-4-e4b-it-4bit \
  --prompt "Explain quantum computing in simple terms" \
  --max-tokens 512

Chat Interativo

mlx_lm.chat --model mlx-community/gemma-4-e4b-it-4bit

Iniciar Servidor de API

mlx_lm.server \
  --model mlx-community/gemma-4-e4b-it-4bit \
  --port 8080

# Then use the OpenAI-compatible API:
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "gemma-4-e4b", "messages": [{"role": "user", "content": "Hello!"}]}'

Quantizar um Modelo

mlx_lm.convert \
  --hf-path google/gemma-4-e4b-it \
  --mlx-path ./gemma-4-e4b-4bit \
  -q --q-bits 4

Dicas de Desempenho

Feche Apps Pesados em Memória

Safari, Chrome e Docker podem consumir RAM significativa. Feche-os antes de rodar modelos maiores para maximizar a memória disponível para o MLX.

Use Modelos Quantizados

Sempre use modelos quantizados INT4 ou INT8 em máquinas com ≤32GB de RAM. A diferença de qualidade é mínima, mas a economia de memória é substancial.

Ajuste o Comprimento do Contexto

Janelas de contexto mais longas consomem mais memória. Se você estiver com pouca RAM, reduza o comprimento máximo do contexto para liberar memória para os pesos do modelo.

Monitore a Pressão de Memória

Use o Activity Monitor para observar a pressão de memória. Se ficar amarela/vermelha, o sistema está fazendo swap para o disco e a inferência ficará drasticamente mais lenta. Considere um modelo menor ou mais quantização.

FAQ MLX + Gemma 4

Posso rodar o Gemma 4 em um Mac Intel?

O MLX requer Apple Silicon (M1 ou posterior). Para Macs Intel, use Ollama ou llama.cpp, que suportam inferência em CPU em qualquer Mac.

Quão rápido é o Gemma 4 no MLX?

O desempenho varia por modelo e hardware: E4B no M3 Pro alcança ~30-40 tokens/segundo. 26B MoE no M3 Max obtém ~15-20 tok/s. 31B no M2 Ultra entrega ~10-15 tok/s. Essas velocidades são excelentes para uso interativo.

MLX vs Ollama no Mac — qual é melhor?

Ambos são excelentes no Mac. O Ollama é mais simples (configuração com um comando) e inclui um servidor de API integrado. O MLX oferece mais controle, melhor eficiência de memória e frequentemente inferência ligeiramente mais rápida. Para a maioria dos usuários, comece com Ollama; mude para o MLX para desempenho máximo.

De onde vêm os modelos MLX?

Modelos no formato MLX estão disponíveis no Hugging Face, frequentemente enviados pela organização mlx-community. Você também pode converter qualquer modelo SafeTensors para o formato MLX usando as ferramentas de conversão do mlx-lm.

Posso fazer fine-tuning do Gemma 4 com MLX?

Sim. O mlx-lm suporta fine-tuning LoRA no Apple Silicon. Isso permite personalizar o Gemma 4 para seu domínio diretamente no seu Mac sem precisar de um servidor de GPU separado.

Quanta RAM eu preciso para o Gemma 4 no Mac?

Mínimo de 8GB para E4B em INT4. 16GB para uso confortável de E4B/26B INT4. 36-48GB para 31B em INT4. 64GB+ para 31B em FP16. Lembre-se que o macOS em si usa 3-5GB, então planeje de acordo.

mlxPage.faq.items.6.q

mlxPage.faq.items.6.a

mlxPage.faq.items.7.q

mlxPage.faq.items.7.a

mlxPage.faq.items.8.q

mlxPage.faq.items.8.a

mlxPage.faq.items.9.q

mlxPage.faq.items.9.a

Comece a Rodar o Gemma 4 no Seu Mac

Seu Mac está pronto para IA. Instale o MLX, baixe o Gemma 4 e comece a gerar.

Baixar Modelos Experimente o Ollama Experimente Online Primeiro