Execute o Gemma 4 com Ollama
O Ollama é a maneira mais rápida e simples de rodar o Gemma 4 em seu próprio hardware. Com um único comando, você pode baixar e começar a conversar com qualquer variante do modelo Gemma 4 — sem ambiente Python, sem configuração complexa, sem configuração de GPU necessária.
O Ollama detecta automaticamente seu hardware (CPU, GPU, memória) e otimiza a configuração do modelo para melhor desempenho. Suporta macOS, Linux e Windows, e fornece uma API compatível com OpenAI para fácil integração em suas aplicações.
Passo 1: Instalar o Ollama
macOS
Baixe em ollama.com ou instale via Homebrew:
# Homebrew
brew install ollama
# Or download from https://ollama.com/download/macLinux
Script de instalação de uma linha:
curl -fsSL https://ollama.com/install.sh | shWindows
Baixe o instalador em ollama.com ou use winget:
# winget
winget install Ollama.Ollama
# Or download from https://ollama.com/download/windowsVerifique a instalação:
ollama --versionPasso 2: Escolha Seu Modelo Gemma 4
Todas as variantes do Gemma 4 estão disponíveis na biblioteca do Ollama. Escolha com base no seu hardware e necessidades:
Ultraleve para dispositivos edge e tarefas básicas
Melhor equilíbrio entre qualidade e uso de recursos
Arquitetura MoE — qualidade de modelo grande a custo de modelo pequeno
Qualidade máxima — modelo denso carro-chefe
Passo 3: Executar o Gemma 4
Inicie uma sessão de chat interativa:
# Start interactive chat with Gemma 4 E4B
ollama run gemma4:e4b
# Or the flagship 31B model
ollama run gemma4:31bExecute um único prompt:
ollama run gemma4:e4b "Explain quantum computing in simple terms"Use com imagens (multimodal):
# In the interactive chat, use /image to add images
ollama run gemma4:e4b
>>> /image photo.jpg What do you see in this image?Usando a API do Ollama
O Ollama fornece uma API REST compatível com OpenAI em localhost:11434, tornando fácil integrar o Gemma 4 em suas aplicações:
Chat completion:
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:e4b",
"messages": [
{"role": "user", "content": "Hello, Gemma 4!"}
]
}'Geração de texto:
curl http://localhost:11434/api/generate \
-d '{
"model": "gemma4:e4b",
"prompt": "Write a Python function to sort a list"
}'Configuração Avançada
Modelfile Personalizado
Crie um Modelfile personalizado para ajustar parâmetros do modelo como temperatura, comprimento do contexto e prompt do sistema:
FROM gemma4:e4b
PARAMETER temperature 0.7
PARAMETER num_ctx 32768
SYSTEM """
You are a helpful coding assistant. Always provide code examples.
"""Configuração de GPU
O Ollama detecta GPUs automaticamente, mas você pode controlar o offloading de camadas da GPU:
# Set number of GPU layers
OLLAMA_NUM_GPU=35 ollama run gemma4:31b
# CPU only mode
OLLAMA_NUM_GPU=0 ollama run gemma4:e4bComprimento do Contexto
Aumente a janela de contexto padrão para conversas mais longas:
ollama run gemma4:e4b --num-ctx 65536Solução de Problemas
O download do modelo está lento
O Ollama baixa do CDN ollama.com. Se estiver lento, verifique sua conexão com a internet ou tente uma VPN. Modelos grandes (26B, 31B) podem levar de 10 a 30 minutos dependendo da largura de banda.
Erro de memória insuficiente
Tente uma variante menor do modelo ou uma versão quantizada. Use 'ollama run gemma4:e4b' em vez do modelo 31B. Em sistemas com RAM limitada, feche outros aplicativos antes de executar.
Velocidade de inferência lenta
Certifique-se de que o Ollama está usando sua GPU: verifique com 'ollama ps'. No Mac, o Ollama usa aceleração GPU Metal automaticamente. No Linux/Windows, certifique-se de que os drivers NVIDIA ou AMD estão instalados corretamente.
Conexão com a API recusada
Certifique-se de que o serviço Ollama está rodando: 'ollama serve'. O endpoint padrão da API é http://localhost:11434. Verifique as configurações do firewall se estiver acessando de outra máquina.
FAQ Ollama + Gemma 4
Qual é o melhor modelo Gemma 4 para rodar com Ollama?
Para a maioria dos usuários, gemma4:e4b oferece o melhor equilíbrio entre qualidade e desempenho. Se você tem uma GPU com 16GB+ de VRAM, gemma4:26b fornece qualidade próxima do carro-chefe com inferência MoE eficiente. O modelo gemma4:31b requer 24GB+ de VRAM, mas entrega desempenho máximo.
Posso rodar o Gemma 4 no Ollama sem uma GPU?
Sim. O Ollama suporta inferência apenas em CPU para todas as variantes do Gemma 4. Os modelos E2B e E4B rodam razoavelmente rápido em CPU. Modelos maiores serão significativamente mais lentos sem aceleração de GPU, mas ainda funcionais.
Como atualizo o Gemma 4 no Ollama?
Execute 'ollama pull gemma4:e4b' (ou sua variante preferida) para baixar a versão mais recente. O Ollama só baixará as diferenças se você já tiver uma versão anterior instalada.
Posso usar o Ollama Gemma 4 com outras ferramentas?
Sim. A API compatível com OpenAI do Ollama funciona com a maioria das ferramentas e frameworks de IA, incluindo LangChain, LlamaIndex, Open WebUI, Continue.dev e muitas outras. Basta apontá-las para http://localhost:11434.
O Ollama suporta os recursos multimodais do Gemma 4?
Sim. O Ollama suporta as capacidades multimodais do Gemma 4. Você pode passar imagens para o modelo usando o comando /image no chat interativo ou via parâmetro de imagem da API.
Quanto espaço em disco o Gemma 4 requer no Ollama?
O espaço em disco depende da variante: E2B (~1,5GB), E4B (~3GB), 26B MoE (~15GB), 31B Denso (~18GB). Estes valores são para a quantização padrão. Os modelos são armazenados em ~/.ollama/models no macOS/Linux.
ollamaGuide.faq.items.6.q
ollamaGuide.faq.items.6.a
ollamaGuide.faq.items.7.q
ollamaGuide.faq.items.7.a
ollamaGuide.faq.items.8.q
ollamaGuide.faq.items.8.a
ollamaGuide.faq.items.9.q
ollamaGuide.faq.items.9.a
Pronto para Executar o Gemma 4?
Instale o Ollama e comece a conversar com o Gemma 4 em minutos. Ou explore outras opções de implantação.