Gemma 4

Execute o Gemma 4 com Ollama

O Ollama é a maneira mais rápida e simples de rodar o Gemma 4 em seu próprio hardware. Com um único comando, você pode baixar e começar a conversar com qualquer variante do modelo Gemma 4 — sem ambiente Python, sem configuração complexa, sem configuração de GPU necessária.

O Ollama detecta automaticamente seu hardware (CPU, GPU, memória) e otimiza a configuração do modelo para melhor desempenho. Suporta macOS, Linux e Windows, e fornece uma API compatível com OpenAI para fácil integração em suas aplicações.

Passo 1: Instalar o Ollama

macOS

Baixe em ollama.com ou instale via Homebrew:

# Homebrew
brew install ollama

# Or download from https://ollama.com/download/mac

Linux

Script de instalação de uma linha:

curl -fsSL https://ollama.com/install.sh | sh

Windows

Baixe o instalador em ollama.com ou use winget:

# winget
winget install Ollama.Ollama

# Or download from https://ollama.com/download/windows

Verifique a instalação:

ollama --version

Passo 2: Escolha Seu Modelo Gemma 4

Todas as variantes do Gemma 4 estão disponíveis na biblioteca do Ollama. Escolha com base no seu hardware e necessidades:

gemma4:e2b
~1,5 GBVRAM: 2 GB

Ultraleve para dispositivos edge e tarefas básicas

gemma4:e4b
~3 GBVRAM: 4 GB

Melhor equilíbrio entre qualidade e uso de recursos

gemma4:26b
~15 GBVRAM: 16 GB

Arquitetura MoE — qualidade de modelo grande a custo de modelo pequeno

gemma4:31b
~18 GBVRAM: 24 GB

Qualidade máxima — modelo denso carro-chefe

Passo 3: Executar o Gemma 4

Inicie uma sessão de chat interativa:

# Start interactive chat with Gemma 4 E4B
ollama run gemma4:e4b

# Or the flagship 31B model
ollama run gemma4:31b

Execute um único prompt:

ollama run gemma4:e4b "Explain quantum computing in simple terms"

Use com imagens (multimodal):

# In the interactive chat, use /image to add images
ollama run gemma4:e4b
>>> /image photo.jpg What do you see in this image?

Usando a API do Ollama

O Ollama fornece uma API REST compatível com OpenAI em localhost:11434, tornando fácil integrar o Gemma 4 em suas aplicações:

Chat completion:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:e4b",
    "messages": [
      {"role": "user", "content": "Hello, Gemma 4!"}
    ]
  }'

Geração de texto:

curl http://localhost:11434/api/generate \
  -d '{
    "model": "gemma4:e4b",
    "prompt": "Write a Python function to sort a list"
  }'

Configuração Avançada

Modelfile Personalizado

Crie um Modelfile personalizado para ajustar parâmetros do modelo como temperatura, comprimento do contexto e prompt do sistema:

FROM gemma4:e4b

PARAMETER temperature 0.7
PARAMETER num_ctx 32768

SYSTEM """
You are a helpful coding assistant. Always provide code examples.
"""

Configuração de GPU

O Ollama detecta GPUs automaticamente, mas você pode controlar o offloading de camadas da GPU:

# Set number of GPU layers
OLLAMA_NUM_GPU=35 ollama run gemma4:31b

# CPU only mode
OLLAMA_NUM_GPU=0 ollama run gemma4:e4b

Comprimento do Contexto

Aumente a janela de contexto padrão para conversas mais longas:

ollama run gemma4:e4b --num-ctx 65536

Solução de Problemas

O download do modelo está lento

O Ollama baixa do CDN ollama.com. Se estiver lento, verifique sua conexão com a internet ou tente uma VPN. Modelos grandes (26B, 31B) podem levar de 10 a 30 minutos dependendo da largura de banda.

Erro de memória insuficiente

Tente uma variante menor do modelo ou uma versão quantizada. Use 'ollama run gemma4:e4b' em vez do modelo 31B. Em sistemas com RAM limitada, feche outros aplicativos antes de executar.

Velocidade de inferência lenta

Certifique-se de que o Ollama está usando sua GPU: verifique com 'ollama ps'. No Mac, o Ollama usa aceleração GPU Metal automaticamente. No Linux/Windows, certifique-se de que os drivers NVIDIA ou AMD estão instalados corretamente.

Conexão com a API recusada

Certifique-se de que o serviço Ollama está rodando: 'ollama serve'. O endpoint padrão da API é http://localhost:11434. Verifique as configurações do firewall se estiver acessando de outra máquina.

FAQ Ollama + Gemma 4

Qual é o melhor modelo Gemma 4 para rodar com Ollama?

Para a maioria dos usuários, gemma4:e4b oferece o melhor equilíbrio entre qualidade e desempenho. Se você tem uma GPU com 16GB+ de VRAM, gemma4:26b fornece qualidade próxima do carro-chefe com inferência MoE eficiente. O modelo gemma4:31b requer 24GB+ de VRAM, mas entrega desempenho máximo.

Posso rodar o Gemma 4 no Ollama sem uma GPU?

Sim. O Ollama suporta inferência apenas em CPU para todas as variantes do Gemma 4. Os modelos E2B e E4B rodam razoavelmente rápido em CPU. Modelos maiores serão significativamente mais lentos sem aceleração de GPU, mas ainda funcionais.

Como atualizo o Gemma 4 no Ollama?

Execute 'ollama pull gemma4:e4b' (ou sua variante preferida) para baixar a versão mais recente. O Ollama só baixará as diferenças se você já tiver uma versão anterior instalada.

Posso usar o Ollama Gemma 4 com outras ferramentas?

Sim. A API compatível com OpenAI do Ollama funciona com a maioria das ferramentas e frameworks de IA, incluindo LangChain, LlamaIndex, Open WebUI, Continue.dev e muitas outras. Basta apontá-las para http://localhost:11434.

O Ollama suporta os recursos multimodais do Gemma 4?

Sim. O Ollama suporta as capacidades multimodais do Gemma 4. Você pode passar imagens para o modelo usando o comando /image no chat interativo ou via parâmetro de imagem da API.

Quanto espaço em disco o Gemma 4 requer no Ollama?

O espaço em disco depende da variante: E2B (~1,5GB), E4B (~3GB), 26B MoE (~15GB), 31B Denso (~18GB). Estes valores são para a quantização padrão. Os modelos são armazenados em ~/.ollama/models no macOS/Linux.

ollamaGuide.faq.items.6.q

ollamaGuide.faq.items.6.a

ollamaGuide.faq.items.7.q

ollamaGuide.faq.items.7.a

ollamaGuide.faq.items.8.q

ollamaGuide.faq.items.8.a

ollamaGuide.faq.items.9.q

ollamaGuide.faq.items.9.a

Pronto para Executar o Gemma 4?

Instale o Ollama e comece a conversar com o Gemma 4 em minutos. Ou explore outras opções de implantação.