Gemma 4

Guia de Implantação

Execute o Gemma 4 localmente no seu próprio hardware. Várias opções de implantação, desde instaladores com um clique até frameworks de serviço de nível de produção.

Ollama

A maneira mais simples de rodar o Gemma 4 localmente. Um comando para baixar e servir qualquer variante com otimização automática de hardware.

Instalar Ollama

curl -fsSL https://ollama.com/install.sh | sh

Executar Modelo

# Gemma 4 31B (Dense) - 最强性能
ollama run gemma4:31b

# Gemma 4 26B (MoE) - 效率优先
ollama run gemma4:26b

# Gemma 4 E4B - 移动/轻量
ollama run gemma4:e4b

# Gemma 4 E2B - 边缘设备
ollama run gemma4:e2b

LM Studio

Aplicativo desktop com interface visual para baixar, configurar e conversar com modelos Gemma 4. Ótimo para iniciantes.

  1. Download LM Studio from lmstudio.ai
  2. Search for "Gemma 4" in the model browser
  3. Select a quantized version matching your VRAM
  4. Click Download and wait for completion
  5. Start chatting in the built-in interface

vLLM

Engine de serviço em produção de alto throughput com PagedAttention, batching contínuo e endpoints de API compatíveis com OpenAI.

pip install vllm
vllm serve google/gemma-4-31b --max-model-len 32768

llama.cpp

Engine de inferência em C++ otimizado que suporta modelos GGUF quantizados. Rode o Gemma 4 em CPU ou configurações mistas CPU/GPU.

# Build llama.cpp
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build && cmake --build build

# Run with GGUF model
./build/bin/llama-cli -m gemma-4-31b-Q4_K_M.gguf -p "Hello"

MLX

Framework nativo para Apple Silicon desenvolvido pela Apple. Otimizado para chips da série M com memória unificada, entregando excelente desempenho em hardware Mac.

pip install mlx-lm
mlx_lm.generate --model google/gemma-4-31b --prompt "Hello"

Requisitos de VRAM

Uso estimado de VRAM para cada variante de modelo em diferentes níveis de quantização.

ModelBF16INT8INT4
E2B4 GB2.5 GB1.5 GB
E4B8 GB5 GB3 GB
26B MoE52 GB28 GB16 GB
31B Dense62 GB33 GB18 GB

Baixar Modelos

Obtenha os pesos do modelo Gemma 4 de fontes oficiais.