Execute o Gemma 4 com MLX no Mac
O MLX é o framework de machine learning da Apple construído especificamente para Apple Silicon (M1, M2, M3, M4). Ele aproveita a arquitetura de memória unificada dos chips Apple para entregar desempenho de inferência excepcional — muitas vezes superando configurações baseadas em GPU para modelos que cabem na memória.
O Gemma 4 funciona excelentemente com o MLX, tornando qualquer Mac com Apple Silicon uma workstation de IA capaz. Este guia cobre instalação, execução de todas as variantes do Gemma 4 e otimização de desempenho em seu Mac.
Por Que MLX para Gemma 4?
Vantagem da Memória Unificada
A arquitetura de memória unificada do Apple Silicon significa que não há limite de VRAM da GPU — toda a memória do sistema está disponível. Um Mac com 64GB de RAM pode carregar e rodar modelos que exigiriam uma GPU de $1.500+ em um PC.
Otimização Nativa
O MLX é construído pela Apple especificamente para Apple Silicon, usando shaders de computação Metal e padrões de acesso à memória otimizados. Ele consistentemente entrega melhores tokens por segundo do que a inferência genérica em CPU.
Configuração Simples
Instale com pip, baixe um modelo e comece a gerar. Sem drivers CUDA, sem contêineres Docker, sem configuração de ambiente complexa.
Eficiência Energética
A eficiência do Apple Silicon significa que você pode rodar o Gemma 4 por horas na bateria. Ideal para desenvolvedores que querem IA local sem ficar preso a uma tomada de parede.
Instalação
Instale o mlx-lm, a biblioteca de serviço de modelos da Apple para MLX:
pip install mlx-lm
# Verify installation
python -c "import mlx_lm; print('MLX-LM ready')Executando Modelos Gemma 4
Quais modelos Gemma 4 rodam bem em quais Macs:
MacBook Air/Pro (8GB)
E2B, E4B (INT4)O E4B em quantização INT4 cabe confortavelmente. Deixe espaço para o SO e apps.
MacBook Pro (16-18GB)
E2B, E4B, 26B MoE (INT4)O 26B MoE em INT4 (~16GB) cabe, mas deixa pouca folga. O E4B é o ponto ideal.
MacBook Pro / Mac Studio (36-48GB)
Todos os modelos (INT4/INT8)Confortável para 26B em INT8. 31B em INT4 cabe com folga.
Mac Studio / Mac Pro (64-192GB)
Todos os modelos (todas as precisões)Pode rodar 31B em FP16. A workstation definitiva para Gemma 4.
Comandos MLX
Geração de Texto
mlx_lm.generate \
--model mlx-community/gemma-4-e4b-it-4bit \
--prompt "Explain quantum computing in simple terms" \
--max-tokens 512Chat Interativo
mlx_lm.chat --model mlx-community/gemma-4-e4b-it-4bitIniciar Servidor de API
mlx_lm.server \
--model mlx-community/gemma-4-e4b-it-4bit \
--port 8080
# Then use the OpenAI-compatible API:
curl http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "gemma-4-e4b", "messages": [{"role": "user", "content": "Hello!"}]}'Quantizar um Modelo
mlx_lm.convert \
--hf-path google/gemma-4-e4b-it \
--mlx-path ./gemma-4-e4b-4bit \
-q --q-bits 4Dicas de Desempenho
Feche Apps Pesados em Memória
Safari, Chrome e Docker podem consumir RAM significativa. Feche-os antes de rodar modelos maiores para maximizar a memória disponível para o MLX.
Use Modelos Quantizados
Sempre use modelos quantizados INT4 ou INT8 em máquinas com ≤32GB de RAM. A diferença de qualidade é mínima, mas a economia de memória é substancial.
Ajuste o Comprimento do Contexto
Janelas de contexto mais longas consomem mais memória. Se você estiver com pouca RAM, reduza o comprimento máximo do contexto para liberar memória para os pesos do modelo.
Monitore a Pressão de Memória
Use o Activity Monitor para observar a pressão de memória. Se ficar amarela/vermelha, o sistema está fazendo swap para o disco e a inferência ficará drasticamente mais lenta. Considere um modelo menor ou mais quantização.
FAQ MLX + Gemma 4
Posso rodar o Gemma 4 em um Mac Intel?
O MLX requer Apple Silicon (M1 ou posterior). Para Macs Intel, use Ollama ou llama.cpp, que suportam inferência em CPU em qualquer Mac.
Quão rápido é o Gemma 4 no MLX?
O desempenho varia por modelo e hardware: E4B no M3 Pro alcança ~30-40 tokens/segundo. 26B MoE no M3 Max obtém ~15-20 tok/s. 31B no M2 Ultra entrega ~10-15 tok/s. Essas velocidades são excelentes para uso interativo.
MLX vs Ollama no Mac — qual é melhor?
Ambos são excelentes no Mac. O Ollama é mais simples (configuração com um comando) e inclui um servidor de API integrado. O MLX oferece mais controle, melhor eficiência de memória e frequentemente inferência ligeiramente mais rápida. Para a maioria dos usuários, comece com Ollama; mude para o MLX para desempenho máximo.
De onde vêm os modelos MLX?
Modelos no formato MLX estão disponíveis no Hugging Face, frequentemente enviados pela organização mlx-community. Você também pode converter qualquer modelo SafeTensors para o formato MLX usando as ferramentas de conversão do mlx-lm.
Posso fazer fine-tuning do Gemma 4 com MLX?
Sim. O mlx-lm suporta fine-tuning LoRA no Apple Silicon. Isso permite personalizar o Gemma 4 para seu domínio diretamente no seu Mac sem precisar de um servidor de GPU separado.
Quanta RAM eu preciso para o Gemma 4 no Mac?
Mínimo de 8GB para E4B em INT4. 16GB para uso confortável de E4B/26B INT4. 36-48GB para 31B em INT4. 64GB+ para 31B em FP16. Lembre-se que o macOS em si usa 3-5GB, então planeje de acordo.
mlxPage.faq.items.6.q
mlxPage.faq.items.6.a
mlxPage.faq.items.7.q
mlxPage.faq.items.7.a
mlxPage.faq.items.8.q
mlxPage.faq.items.8.a
mlxPage.faq.items.9.q
mlxPage.faq.items.9.a
Comece a Rodar o Gemma 4 no Seu Mac
Seu Mac está pronto para IA. Instale o MLX, baixe o Gemma 4 e comece a gerar.