Guide de préréglages et de configuration de Gemma 4

Obtenir le meilleur résultat de Gemma 4 nécessite la bonne configuration de paramètres. La température, top-p, la pénalité de répétition et la longueur de contexte ont tous un impact significatif sur la qualité. Ce guide fournit des préréglages testés pour les cas d'utilisation courants afin que vous puissiez obtenir des résultats optimaux immédiatement.

Ces préréglages fonctionnent avec tous les outils d'inférence Gemma 4 — Ollama, LM Studio, vLLM, llama.cpp et MLX. Ajustez les valeurs pour correspondre à vos besoins spécifiques.

Paramètres clés expliqués

Température

Range: 0,0 – 2,0Default: 0,7

Contrôle l'aléatoire dans la sortie. Les valeurs plus basses (0,1-0,3) produisent des réponses plus déterministes et focalisées. Les valeurs plus élevées (0,8-1,2) augmentent la créativité et la variété. Les valeurs supérieures à 1,5 peuvent produire une sortie incohérente.

Top-P (échantillonnage par noyau)

Range: 0,0 – 1,0Default: 0,9

Limite la sélection de tokens au plus petit ensemble de tokens dont la probabilité cumulée dépasse P. Les valeurs plus basses (0,5-0,7) focalisent la sortie ; les valeurs plus élevées (0,9-1,0) permettent plus de diversité. Fonctionne en conjonction avec la température.

Top-K

Range: 1 – 100+Default: 40

Limite la prise en compte aux K tokens les plus probables. Les valeurs plus basses augmentent la concentration et la cohérence. Réglé sur 1 pour une sortie entièrement déterministe (gloutonne).

Pénalité de répétition

Range: 1,0 – 2,0Default: 1,1

Pénalise la répétition de tokens pour empêcher les boucles et la sortie redondante. Des valeurs autour de 1,05-1,15 fonctionnent bien pour la plupart des cas d'utilisation. Des valeurs plus élevées peuvent amener le modèle à éviter les répétitions nécessaires.

Longueur de contexte (num_ctx)

Range: 2048 – 256000Default: 8192

Nombre maximum de tokens que le modèle prend en compte. Des contextes plus grands permettent de traiter des documents plus longs mais nécessitent plus de mémoire. Gemma 4 prend en charge jusqu'à 128K (E2B/E4B) ou 256K (26B/31B).

Tokens max

Range: 1 – limite de contexteDefault: 2048

Nombre maximum de tokens à générer dans la réponse. Réglez plus haut pour la génération de contenu long, plus bas pour des réponses concises.

Préréglages recommandés

Codage et technique

Optimisé pour la génération de code, le débogage et les tâches techniques. Faible température pour la précision, contexte élevé pour la compréhension de la base de code.

temperature0,2

topP0,85

topK20

repeatPenalty1,05

numCtx32768

maxTokens4096

System Prompt

Vous êtes un ingénieur logiciel expert. Écrivez du code propre, bien documenté et de qualité production. Incluez toujours la gestion des erreurs et suivez les meilleures pratiques pour le langage utilisé.

Écriture créative

Température plus élevée pour la variété créative, avec un top-p suffisant pour maintenir la cohérence. Bon pour les histoires, le copywriting marketing et le brainstorming.

temperature0,9

topP0,95

topK60

repeatPenalty1,15

numCtx16384

maxTokens8192

System Prompt

Vous êtes un écrivain créatif talentueux. Écrivez du contenu vivant et engageant avec une voix narrative forte. Variez la structure des phrases et utilisez un langage évocateur.

Analyse et recherche

Paramètres équilibrés pour les tâches analytiques — analyse de documents, résumé et recherche. Température modérée avec contexte long pour une analyse approfondie.

temperature0,3

topP0,9

topK30

repeatPenalty1,1

numCtx65536

maxTokens4096

System Prompt

Vous êtes un analyste rigoureux. Fournissez une analyse bien structurée et fondée sur des preuves. Citez des détails spécifiques du matériel source. Soyez objectif et exhaustif.

Chat général et assistant

Préréglage polyvalent pour les interactions quotidiennes. Ton conversationnel naturel avec un bon équilibre entre cohérence et variété.

temperature0,7

topP0,9

topK40

repeatPenalty1,1

numCtx8192

maxTokens2048

System Prompt

Vous êtes un assistant IA utile et amical. Fournissez des réponses claires et précises. Posez des questions de clarification si nécessaire. Soyez concis mais complet.

Roleplay et personnage

Haute créativité avec une forte pénalité de répétition pour maintenir la cohérence du personnage. Convient à la fiction interactive et aux conversations basées sur des personnages.

temperature0,85

topP0,92

topK50

repeatPenalty1,18

numCtx16384

maxTokens4096

System Prompt

Restez dans le personnage en tout temps. Répondez avec des descriptions vivantes, une profondeur émotionnelle et une personnalité cohérente. Ne brisez jamais le quatrième mur.

Factuel et précis

Aléatoire minimal pour les tâches nécessitant de la précision — extraction de données, classification, sortie structurée et Q&R factuel.

temperature0,1

topP0,8

topK10

repeatPenalty1,05

numCtx8192

maxTokens2048

System Prompt

Vous êtes un assistant précis et factuel. Fournissez uniquement des informations exactes. Si vous n'êtes pas sûr, dites-le. Utilisez des formats structurés (listes, tableaux) lorsque c'est approprié.

Utiliser les préréglages avec Ollama

Créez un Modelfile personnalisé pour appliquer un préréglage dans Ollama :

# Create a Modelfile
cat > Modelfile.coding <<'EOF'
FROM gemma4:e4b

PARAMETER temperature 0.2
PARAMETER top_p 0.85
PARAMETER top_k 20
PARAMETER repeat_penalty 1.05
PARAMETER num_ctx 32768

SYSTEM """
You are an expert software engineer. Write clean, well-documented, production-quality code. Always include error handling and follow best practices for the language being used.
"""
EOF

# Build and run
ollama create gemma4-coding -f Modelfile.coding
ollama run gemma4-coding

FAQ préréglages

Quelle est la meilleure température pour Gemma 4 ?

Cela dépend de la tâche : 0,1-0,3 pour les tâches de codage et factuelles, 0,6-0,8 pour le chat général, 0,8-1,0 pour l'écriture créative. Commencez avec le préréglage recommandé pour votre cas d'utilisation et ajustez selon la qualité de la sortie.

Devrais-je utiliser top-p ou top-k ?

La plupart des utilisateurs devraient utiliser top-p (échantillonnage par noyau) car il s'adapte mieux à différentes distributions de probabilité. Top-k est plus simple mais peut être trop restrictif ou trop lâche selon le contexte. Les utiliser ensemble offre un contrôle fin.

Quelle longueur de contexte devrais-je définir ?

Utilisez le plus petit contexte qui répond à vos besoins — un contexte plus long utilise plus de mémoire. 8K convient pour les chats simples. 32K pour les fichiers de code. 64K+ pour les longs documents. N'utilisez 128K/256K que pour traiter de très grandes entrées.

Comment corriger les sorties répétitives ?

Augmentez la pénalité de répétition (essayez 1,15-1,25). Essayez également d'augmenter légèrement la température (ajoutez 0,1-0,2) et de réduire top-k. Si le modèle boucle sur des phrases spécifiques, ajoutez-les à une liste de pénalité de présence si votre outil le prend en charge.

Les préréglages diffèrent-ils entre les tailles de modèles ?

Les mêmes préréglages fonctionnent généralement pour toutes les variantes de Gemma 4. Les modèles plus petits (E2B, E4B) peuvent bénéficier de températures légèrement plus basses (soustraire 0,1) pour compenser la capacité réduite du modèle. Le modèle 31B gère bien les températures plus élevées.

Puis-je utiliser ces préréglages avec d'autres modèles ?

Ces préréglages sont optimisés pour Gemma 4 mais fonctionnent comme des points de départ raisonnables pour la plupart des LLM. Différentes familles de modèles peuvent réagir différemment aux mêmes paramètres — testez et ajustez toujours.

presetsPage.faq.items.6.q

presetsPage.faq.items.6.a

presetsPage.faq.items.7.q

presetsPage.faq.items.7.a

presetsPage.faq.items.8.q

presetsPage.faq.items.8.a

presetsPage.faq.items.9.q

presetsPage.faq.items.9.a

Appliquer ces préréglages

Téléchargez Gemma 4 et commencez à utiliser ces configurations optimisées. Ou essayez Gemma 4 en ligne d'abord.

Guide Ollama Télécharger les modèles Essayer en ligne