Guia de Presets e Configuração do Gemma 4

Obter a melhor saída do Gemma 4 requer a configuração correta dos parâmetros. Temperatura, top-p, penalidade de repetição e comprimento do contexto impactam significativamente a qualidade. Este guia fornece presets testados para casos de uso comuns para que você obtenha resultados ótimos imediatamente.

Estes presets funcionam em todas as ferramentas de inferência do Gemma 4 — Ollama, LM Studio, vLLM, llama.cpp e MLX. Ajuste os valores para corresponder às suas necessidades específicas.

Parâmetros Principais Explicados

Temperature

Range: 0.0 – 2.0Default: 0.7

Controla a aleatoriedade na saída. Valores mais baixos (0,1-0,3) produzem respostas mais determinísticas e focadas. Valores mais altos (0,8-1,2) aumentam a criatividade e a variedade. Valores acima de 1,5 podem produzir saídas incoerentes.

Top-P (Nucleus Sampling)

Range: 0.0 – 1.0Default: 0.9

Limita a seleção de tokens ao menor conjunto de tokens cuja probabilidade cumulativa excede P. Valores mais baixos (0,5-0,7) focam a saída; valores mais altos (0,9-1,0) permitem mais diversidade. Funciona em conjunto com a temperatura.

Top-K

Range: 1 – 100+Default: 40

Limita a consideração aos K tokens mais prováveis. Valores mais baixos aumentam o foco e a consistência. Defina como 1 para saída totalmente determinística (greedy).

Repetition Penalty

Range: 1.0 – 2.0Default: 1.1

Penaliza a repetição de tokens para evitar loops e saídas redundantes. Valores em torno de 1,05-1,15 funcionam bem para a maioria dos casos de uso. Valores mais altos podem fazer com que o modelo evite repetições necessárias.

Context Length (num_ctx)

Range: 2048 – 256000Default: 8192

Número máximo de tokens que o modelo considera. Contextos maiores permitem processar documentos mais longos, mas requerem mais memória. O Gemma 4 suporta até 128K (E2B/E4B) ou 256K (26B/31B).

Max Tokens

Range: 1 – limite do contextoDefault: 2048

Número máximo de tokens a gerar na resposta. Defina como maior para geração de conteúdo longo, menor para respostas concisas.

Presets Recomendados

Codificação e Técnico

Otimizado para geração de código, debugging e tarefas técnicas. Baixa temperatura para precisão, alto contexto para compreensão de bases de código.

temperature0,2

topP0,85

topK20

repeatPenalty1,05

numCtx32768

maxTokens4096

System Prompt

Você é um engenheiro de software experiente. Escreva código limpo, bem documentado e de qualidade de produção. Sempre inclua tratamento de erros e siga as melhores práticas para a linguagem sendo usada.

Escrita Criativa

Temperatura mais alta para variedade criativa, com top-p suficiente para manter coerência. Bom para histórias, textos de marketing e brainstorming.

temperature0,9

topP0,95

topK60

repeatPenalty1,15

numCtx16384

maxTokens8192

System Prompt

Você é um escritor criativo talentoso. Escreva conteúdo vívido e envolvente com voz narrativa forte. Varie a estrutura das frases e use linguagem evocativa.

Análise e Pesquisa

Configurações equilibradas para tarefas analíticas — análise de documentos, sumarização e pesquisa. Temperatura moderada com contexto longo para análise completa.

temperature0,3

topP0,9

topK30

repeatPenalty1,1

numCtx65536

maxTokens4096

System Prompt

Você é um analista minucioso. Forneça análises bem estruturadas e baseadas em evidências. Cite detalhes específicos do material de origem. Seja objetivo e abrangente.

Chat Geral e Assistente

Preset versátil para interações do dia a dia. Tom conversacional natural com bom equilíbrio entre consistência e variedade.

temperature0,7

topP0,9

topK40

repeatPenalty1,1

numCtx8192

maxTokens2048

System Prompt

Você é um assistente de IA prestativo e amigável. Forneça respostas claras e precisas. Faça perguntas esclarecedoras quando necessário. Seja conciso, mas completo.

Roleplay e Personagem

Alta criatividade com forte penalidade de repetição para manter a consistência do personagem. Adequado para ficção interativa e conversas baseadas em personagens.

temperature0,85

topP0,92

topK50

repeatPenalty1,18

numCtx16384

maxTokens4096

System Prompt

Permaneça no personagem o tempo todo. Responda com descrições vívidas, profundidade emocional e personalidade consistente. Nunca quebre a quarta parede.

Factual e Preciso

Aleatoriedade mínima para tarefas que exigem precisão — extração de dados, classificação, saída estruturada e perguntas e respostas factuais.

temperature0,1

topP0,8

topK10

repeatPenalty1,05

numCtx8192

maxTokens2048

System Prompt

Você é um assistente preciso e factual. Forneça apenas informações precisas. Se estiver em dúvida, diga isso. Use formatos estruturados (listas, tabelas) quando apropriado.

Usando Presets com Ollama

Crie um Modelfile personalizado para aplicar um preset no Ollama:

# Create a Modelfile
cat > Modelfile.coding <<'EOF'
FROM gemma4:e4b

PARAMETER temperature 0.2
PARAMETER top_p 0.85
PARAMETER top_k 20
PARAMETER repeat_penalty 1.05
PARAMETER num_ctx 32768

SYSTEM """
You are an expert software engineer. Write clean, well-documented, production-quality code. Always include error handling and follow best practices for the language being used.
"""
EOF

# Build and run
ollama create gemma4-coding -f Modelfile.coding
ollama run gemma4-coding

FAQ de Presets

Qual é a melhor temperatura para o Gemma 4?

Depende da tarefa: 0,1-0,3 para codificação e tarefas factuais, 0,6-0,8 para chat geral, 0,8-1,0 para escrita criativa. Comece com o preset recomendado para seu caso de uso e ajuste com base na qualidade da saída.

Devo usar top-p ou top-k?

A maioria dos usuários deve usar top-p (nucleus sampling) pois ele se adapta melhor a diferentes distribuições de probabilidade. O top-k é mais simples, mas pode ser muito restritivo ou muito solto dependendo do contexto. Usar os dois juntos fornece controle refinado.

Qual comprimento de contexto devo definir?

Use o menor contexto que atenda às suas necessidades — contexto mais longo usa mais memória. 8K é bom para chats simples. 32K para arquivos de código. 64K+ para documentos longos. Só use 128K/256K ao processar entradas muito grandes.

Como corrijo saídas repetitivas?

Aumente a penalidade de repetição (tente 1,15-1,25). Também tente aumentar ligeiramente a temperatura (adicione 0,1-0,2) e reduzir o top-k. Se o modelo fica em loop em frases específicas, adicione-as a uma lista de penalidade de presença se sua ferramenta suportar.

Os presets diferem entre tamanhos de modelo?

Os mesmos presets geralmente funcionam em todas as variantes do Gemma 4. Modelos menores (E2B, E4B) podem se beneficiar de temperaturas ligeiramente mais baixas (subtraia 0,1) para compensar a capacidade reduzida do modelo. O modelo 31B lida bem com temperaturas mais altas.

Posso usar esses presets com outros modelos?

Esses presets são otimizados para o Gemma 4, mas funcionam como pontos de partida razoáveis para a maioria dos LLMs. Diferentes famílias de modelos podem responder de forma diferente às mesmas configurações — sempre teste e ajuste.

Aplique Estes Presets

Baixe o Gemma 4 e comece a usar estas configurações otimizadas. Ou experimente o Gemma 4 online primeiro.

Guia do Ollama Baixar Modelos Experimente Online