Gemma 4 Presets & Konfigurationsleitfaden

Um die beste Ausgabe aus Gemma 4 zu erhalten, braucht es die richtige Parameterkonfiguration. Temperature, Top-p, Repetition Penalty und Kontextlänge beeinflussen die Qualität erheblich. Dieser Leitfaden bietet getestete Presets für gängige Anwendungsfälle, damit Sie sofort optimale Ergebnisse erhalten.

Diese Presets funktionieren mit allen Gemma 4 Inferenz-Tools — Ollama, LM Studio, vLLM, llama.cpp und MLX. Passen Sie die Werte an Ihre spezifischen Bedürfnisse an.

Wichtige Parameter erklärt

Temperature

Range: 0.0 – 2.0Default: 0.7

Steuert die Zufälligkeit in der Ausgabe. Niedrigere Werte (0,1-0,3) erzeugen deterministischere, fokussiertere Antworten. Höhere Werte (0,8-1,2) steigern Kreativität und Vielfalt. Werte über 1,5 können inkohärente Ausgaben erzeugen.

Top-P (Nucleus Sampling)

Range: 0.0 – 1.0Default: 0.9

Begrenzt die Token-Auswahl auf die kleinste Menge von Tokens, deren kumulative Wahrscheinlichkeit P überschreitet. Niedrigere Werte (0,5-0,7) fokussieren die Ausgabe; höhere Werte (0,9-1,0) erlauben mehr Vielfalt. Funktioniert zusammen mit Temperature.

Top-K

Range: 1 – 100+Default: 40

Beschränkt die Betrachtung auf die Top-K wahrscheinlichsten Tokens. Niedrigere Werte erhöhen Fokus und Konsistenz. Auf 1 gesetzt für vollständig deterministische (greedy) Ausgabe.

Repetition Penalty

Range: 1.0 – 2.0Default: 1.1

Bestraft Token-Wiederholungen, um Schleifen und redundante Ausgaben zu vermeiden. Werte um 1,05-1,15 funktionieren in den meisten Fällen gut. Höhere Werte können dazu führen, dass das Modell notwendige Wiederholungen vermeidet.

Kontextlänge (num_ctx)

Range: 2048 – 256000Default: 8192

Maximale Anzahl an Tokens, die das Modell berücksichtigt. Größere Kontexte ermöglichen das Verarbeiten längerer Dokumente, erfordern aber mehr Speicher. Gemma 4 unterstützt bis zu 128K (E2B/E4B) oder 256K (26B/31B).

Max Tokens

Range: 1 – KontextlimitDefault: 2048

Maximale Anzahl zu generierender Tokens in der Antwort. Höher setzen für lange Inhalte, niedriger für knappe Antworten.

Empfohlene Presets

Coding & Technisches

Optimiert für Code-Generierung, Debugging und technische Aufgaben. Niedrige Temperature für Genauigkeit, hoher Kontext für Codebase-Verständnis.

temperature0.2

topP0.85

topK20

repeatPenalty1.05

numCtx32768

maxTokens4096

System Prompt

Sie sind ein erfahrener Software-Engineer. Schreiben Sie sauberen, gut dokumentierten Code in Produktionsqualität. Schließen Sie immer Fehlerbehandlung ein und folgen Sie Best Practices der verwendeten Sprache.

Kreatives Schreiben

Höhere Temperature für kreative Vielfalt, mit ausreichend Top-p zur Wahrung der Kohärenz. Gut für Geschichten, Marketingtexte und Brainstorming.

temperature0.9

topP0.95

topK60

repeatPenalty1.15

numCtx16384

maxTokens8192

System Prompt

Sie sind ein talentierter kreativer Autor. Schreiben Sie lebhafte, fesselnde Inhalte mit starker erzählerischer Stimme. Variieren Sie die Satzstruktur und nutzen Sie bildhafte Sprache.

Analyse & Recherche

Ausgewogene Einstellungen für analytische Aufgaben — Dokumentenanalyse, Zusammenfassung und Recherche. Moderate Temperature mit langem Kontext für gründliche Analyse.

temperature0.3

topP0.9

topK30

repeatPenalty1.1

numCtx65536

maxTokens4096

System Prompt

Sie sind ein gründlicher Analyst. Liefern Sie gut strukturierte, evidenzbasierte Analysen. Zitieren Sie spezifische Details aus dem Quellmaterial. Seien Sie objektiv und umfassend.

Allgemeiner Chat & Assistent

Vielseitiges Preset für alltägliche Interaktionen. Natürlicher Gesprächston mit guter Balance zwischen Konsistenz und Vielfalt.

temperature0.7

topP0.9

topK40

repeatPenalty1.1

numCtx8192

maxTokens2048

System Prompt

Sie sind ein hilfsbereiter, freundlicher KI-Assistent. Liefern Sie klare, präzise Antworten. Stellen Sie bei Bedarf Rückfragen. Seien Sie knapp, aber gründlich.

Rollenspiel & Charakter

Hohe Kreativität mit starkem Repetition Penalty für konsistente Charakterdarstellung. Geeignet für interaktive Fiction und charakterbasierte Konversationen.

temperature0.85

topP0.92

topK50

repeatPenalty1.18

numCtx16384

maxTokens4096

System Prompt

Bleiben Sie jederzeit in der Rolle. Antworten Sie mit lebhaften Beschreibungen, emotionaler Tiefe und konsistenter Persönlichkeit. Durchbrechen Sie niemals die vierte Wand.

Faktisch & Präzise

Minimale Zufälligkeit für Aufgaben, die Genauigkeit erfordern — Datenextraktion, Klassifikation, strukturierte Ausgabe und faktenbasierte Q&A.

temperature0.1

topP0.8

topK10

repeatPenalty1.05

numCtx8192

maxTokens2048

System Prompt

Sie sind ein präziser, faktischer Assistent. Geben Sie ausschließlich korrekte Informationen. Wenn Sie unsicher sind, sagen Sie es. Verwenden Sie strukturierte Formate (Listen, Tabellen), wenn angebracht.

Presets mit Ollama verwenden

Erstellen Sie eine benutzerdefinierte Modelfile, um ein Preset in Ollama anzuwenden:

# Create a Modelfile
cat > Modelfile.coding <<'EOF'
FROM gemma4:e4b

PARAMETER temperature 0.2
PARAMETER top_p 0.85
PARAMETER top_k 20
PARAMETER repeat_penalty 1.05
PARAMETER num_ctx 32768

SYSTEM """
You are an expert software engineer. Write clean, well-documented, production-quality code. Always include error handling and follow best practices for the language being used.
"""
EOF

# Build and run
ollama create gemma4-coding -f Modelfile.coding
ollama run gemma4-coding

Presets-FAQ

Welche Temperature ist die beste für Gemma 4?

Es hängt von der Aufgabe ab: 0,1-0,3 für Coding und faktische Aufgaben, 0,6-0,8 für allgemeinen Chat, 0,8-1,0 für kreatives Schreiben. Beginnen Sie mit dem empfohlenen Preset für Ihren Anwendungsfall und passen Sie basierend auf der Ausgabequalität an.

Sollte ich Top-p oder Top-k verwenden?

Die meisten Nutzer sollten Top-p (Nucleus Sampling) verwenden, da es sich besser an unterschiedliche Wahrscheinlichkeitsverteilungen anpasst. Top-k ist einfacher, kann aber je nach Kontext zu restriktiv oder zu locker sein. Die gemeinsame Nutzung beider bietet feinkörnige Kontrolle.

Welche Kontextlänge sollte ich einstellen?

Nutzen Sie den kleinsten Kontext, der Ihre Anforderungen erfüllt — längerer Kontext verbraucht mehr Speicher. 8K reicht für einfache Chats. 32K für Code-Dateien. 64K+ für lange Dokumente. Nutzen Sie 128K/256K nur bei der Verarbeitung sehr großer Eingaben.

Wie behebe ich wiederholte Ausgaben?

Erhöhen Sie den Repetition Penalty (versuchen Sie 1,15-1,25). Probieren Sie außerdem, die Temperature leicht zu erhöhen (0,1-0,2 dazu) und Top-k zu reduzieren. Wenn das Modell an bestimmten Phrasen festhängt, fügen Sie diese einer Presence-Penalty-Liste hinzu, wenn Ihr Tool dies unterstützt.

Unterscheiden sich die Presets zwischen Modellgrößen?

Dieselben Presets funktionieren in der Regel über alle Gemma 4 Varianten hinweg. Kleinere Modelle (E2B, E4B) profitieren möglicherweise von etwas niedrigeren Temperatures (0,1 abziehen), um die reduzierte Modellkapazität zu kompensieren. Das 31B-Modell verträgt höhere Temperatures gut.

Kann ich diese Presets mit anderen Modellen verwenden?

Diese Presets sind für Gemma 4 optimiert, funktionieren aber als vernünftige Ausgangspunkte für die meisten LLMs. Unterschiedliche Modellfamilien reagieren möglicherweise anders auf dieselben Einstellungen — immer testen und anpassen.

presetsPage.faq.items.6.q

presetsPage.faq.items.6.a

presetsPage.faq.items.7.q

presetsPage.faq.items.7.a

presetsPage.faq.items.8.q

presetsPage.faq.items.8.a

presetsPage.faq.items.9.q

presetsPage.faq.items.9.a

Wenden Sie diese Presets an

Laden Sie Gemma 4 herunter und nutzen Sie diese optimierten Konfigurationen. Oder probieren Sie Gemma 4 zuerst online aus.

Ollama-Leitfaden Modelle herunterladen Online ausprobieren