Guia de Presets e Configuração do Gemma 4
Obter a melhor saída do Gemma 4 requer a configuração correta dos parâmetros. Temperatura, top-p, penalidade de repetição e comprimento do contexto impactam significativamente a qualidade. Este guia fornece presets testados para casos de uso comuns para que você obtenha resultados ótimos imediatamente.
Estes presets funcionam em todas as ferramentas de inferência do Gemma 4 — Ollama, LM Studio, vLLM, llama.cpp e MLX. Ajuste os valores para corresponder às suas necessidades específicas.
Parâmetros Principais Explicados
Temperature
Controla a aleatoriedade na saída. Valores mais baixos (0,1-0,3) produzem respostas mais determinísticas e focadas. Valores mais altos (0,8-1,2) aumentam a criatividade e a variedade. Valores acima de 1,5 podem produzir saídas incoerentes.
Top-P (Nucleus Sampling)
Limita a seleção de tokens ao menor conjunto de tokens cuja probabilidade cumulativa excede P. Valores mais baixos (0,5-0,7) focam a saída; valores mais altos (0,9-1,0) permitem mais diversidade. Funciona em conjunto com a temperatura.
Top-K
Limita a consideração aos K tokens mais prováveis. Valores mais baixos aumentam o foco e a consistência. Defina como 1 para saída totalmente determinística (greedy).
Repetition Penalty
Penaliza a repetição de tokens para evitar loops e saídas redundantes. Valores em torno de 1,05-1,15 funcionam bem para a maioria dos casos de uso. Valores mais altos podem fazer com que o modelo evite repetições necessárias.
Context Length (num_ctx)
Número máximo de tokens que o modelo considera. Contextos maiores permitem processar documentos mais longos, mas requerem mais memória. O Gemma 4 suporta até 128K (E2B/E4B) ou 256K (26B/31B).
Max Tokens
Número máximo de tokens a gerar na resposta. Defina como maior para geração de conteúdo longo, menor para respostas concisas.
Presets Recomendados
Codificação e Técnico
Otimizado para geração de código, debugging e tarefas técnicas. Baixa temperatura para precisão, alto contexto para compreensão de bases de código.
Você é um engenheiro de software experiente. Escreva código limpo, bem documentado e de qualidade de produção. Sempre inclua tratamento de erros e siga as melhores práticas para a linguagem sendo usada.
Escrita Criativa
Temperatura mais alta para variedade criativa, com top-p suficiente para manter coerência. Bom para histórias, textos de marketing e brainstorming.
Você é um escritor criativo talentoso. Escreva conteúdo vívido e envolvente com voz narrativa forte. Varie a estrutura das frases e use linguagem evocativa.
Análise e Pesquisa
Configurações equilibradas para tarefas analíticas — análise de documentos, sumarização e pesquisa. Temperatura moderada com contexto longo para análise completa.
Você é um analista minucioso. Forneça análises bem estruturadas e baseadas em evidências. Cite detalhes específicos do material de origem. Seja objetivo e abrangente.
Chat Geral e Assistente
Preset versátil para interações do dia a dia. Tom conversacional natural com bom equilíbrio entre consistência e variedade.
Você é um assistente de IA prestativo e amigável. Forneça respostas claras e precisas. Faça perguntas esclarecedoras quando necessário. Seja conciso, mas completo.
Roleplay e Personagem
Alta criatividade com forte penalidade de repetição para manter a consistência do personagem. Adequado para ficção interativa e conversas baseadas em personagens.
Permaneça no personagem o tempo todo. Responda com descrições vívidas, profundidade emocional e personalidade consistente. Nunca quebre a quarta parede.
Factual e Preciso
Aleatoriedade mínima para tarefas que exigem precisão — extração de dados, classificação, saída estruturada e perguntas e respostas factuais.
Você é um assistente preciso e factual. Forneça apenas informações precisas. Se estiver em dúvida, diga isso. Use formatos estruturados (listas, tabelas) quando apropriado.
Usando Presets com Ollama
Crie um Modelfile personalizado para aplicar um preset no Ollama:
# Create a Modelfile
cat > Modelfile.coding <<'EOF'
FROM gemma4:e4b
PARAMETER temperature 0.2
PARAMETER top_p 0.85
PARAMETER top_k 20
PARAMETER repeat_penalty 1.05
PARAMETER num_ctx 32768
SYSTEM """
You are an expert software engineer. Write clean, well-documented, production-quality code. Always include error handling and follow best practices for the language being used.
"""
EOF
# Build and run
ollama create gemma4-coding -f Modelfile.coding
ollama run gemma4-codingFAQ de Presets
Qual é a melhor temperatura para o Gemma 4?
Depende da tarefa: 0,1-0,3 para codificação e tarefas factuais, 0,6-0,8 para chat geral, 0,8-1,0 para escrita criativa. Comece com o preset recomendado para seu caso de uso e ajuste com base na qualidade da saída.
Devo usar top-p ou top-k?
A maioria dos usuários deve usar top-p (nucleus sampling) pois ele se adapta melhor a diferentes distribuições de probabilidade. O top-k é mais simples, mas pode ser muito restritivo ou muito solto dependendo do contexto. Usar os dois juntos fornece controle refinado.
Qual comprimento de contexto devo definir?
Use o menor contexto que atenda às suas necessidades — contexto mais longo usa mais memória. 8K é bom para chats simples. 32K para arquivos de código. 64K+ para documentos longos. Só use 128K/256K ao processar entradas muito grandes.
Como corrijo saídas repetitivas?
Aumente a penalidade de repetição (tente 1,15-1,25). Também tente aumentar ligeiramente a temperatura (adicione 0,1-0,2) e reduzir o top-k. Se o modelo fica em loop em frases específicas, adicione-as a uma lista de penalidade de presença se sua ferramenta suportar.
Os presets diferem entre tamanhos de modelo?
Os mesmos presets geralmente funcionam em todas as variantes do Gemma 4. Modelos menores (E2B, E4B) podem se beneficiar de temperaturas ligeiramente mais baixas (subtraia 0,1) para compensar a capacidade reduzida do modelo. O modelo 31B lida bem com temperaturas mais altas.
Posso usar esses presets com outros modelos?
Esses presets são otimizados para o Gemma 4, mas funcionam como pontos de partida razoáveis para a maioria dos LLMs. Diferentes famílias de modelos podem responder de forma diferente às mesmas configurações — sempre teste e ajuste.
presetsPage.faq.items.6.q
presetsPage.faq.items.6.a
presetsPage.faq.items.7.q
presetsPage.faq.items.7.a
presetsPage.faq.items.8.q
presetsPage.faq.items.8.a
presetsPage.faq.items.9.q
presetsPage.faq.items.9.a
Aplique Estes Presets
Baixe o Gemma 4 e comece a usar estas configurações otimizadas. Ou experimente o Gemma 4 online primeiro.