Gemma 4 Benchmark-Ergebnisse
Gemma 4 liefert State-of-the-Art-Leistung in wichtigen akademischen und Industrie-Benchmarks und etabliert sich als die leistungsfähigste verfügbare Open-Source-Modellfamilie. Das Flaggschiff-Modell 31B Dense konkurriert mit proprietären Modellen von OpenAI, Anthropic und Googles eigener Gemini-Reihe.
Diese Seite bietet detaillierte Benchmark-Scores, Methodikerklärungen und modellübergreifende Vergleiche, damit Sie beurteilen können, welche Gemma 4 Variante am besten zu Ihrem Anwendungsfall passt.
Kern-Benchmark-Scores
Leistung des Flaggschiff-Modells Gemma 4 31B in wichtigen Benchmarks:
AIME 2026
Mathematisches ReasoningDie American Invitational Mathematics Examination testet fortgeschrittenes mathematisches Reasoning und mehrstufiges Problemlösen. Gemma 4s Score von 89,2% demonstriert außergewöhnliche Fähigkeiten in Wettbewerbsmathematik, einschließlich Algebra, Geometrie, Zahlentheorie und Kombinatorik.
LiveCodeBench v6
Code-GenerierungLiveCodeBench bewertet reale Coding-Fähigkeiten über Code-Generierung, Debugging, Refactoring und Verständnisaufgaben in mehreren Programmiersprachen. Der Score von 80% platziert Gemma 4 unter den besten verfügbaren Coding-Modellen.
GPQA Diamond
ExpertenwissenFragen auf Graduiertenniveau in Physik, Chemie und Biologie. Die Fragen werden von Fachexperten entworfen und von Prüfern auf PhD-Niveau verifiziert. Gemma 4s starke Leistung zeigt tiefe wissenschaftliche Reasoning-Fähigkeiten.
MMMLU
Mehrsprachiges VerständnisMassive Multitask Multilingual Language Understanding bewertet breites Wissen und Reasoning in über 140 Sprachen und Dutzenden akademischer Fächer. Dieser Score bestätigt Gemma 4s Stärke als wirklich mehrsprachiges Modell.
Leistung über Modellvarianten hinweg
Wie jede Gemma 4 Variante im Vergleich zum Flaggschiff 31B abschneidet:
| Model | AIME 2026 | LCB v6 | GPQA | MMMLU |
|---|---|---|---|---|
| 31B Dense | 89.2% | 80.0% | 84.3% | 85.2% |
| 26B A4B MoE | ~85% | ~76% | ~80% | ~82% |
| E4B | ~62% | ~55% | ~58% | ~68% |
| E2B | ~45% | ~38% | ~42% | ~55% |
Scores sind Näherungswerte und können je nach Quantisierungsgrad und Inferenzkonfiguration variieren. Das 31B-Modell stellt die Spitzenleistung der Gemma 4 Familie dar.
Zentrale Stärken im Überblick
Mathematisches Reasoning
Der AIME-Score von 89,2% gehört zu den höchsten für ein Open-Source-Modell und zeigt Gemma 4s außergewöhnliche Fähigkeit, komplexe, mehrstufige mathematische Probleme zu lösen, die tiefes logisches Reasoning erfordern.
Qualität der Code-Generierung
Mit 80% auf LiveCodeBench v6 produziert Gemma 4 produktionsreifen Code in Python, JavaScript, TypeScript, Go, Rust und anderen Sprachen. Es glänzt beim Verstehen komplexer Codebases und beim Generieren kontextbezogener Lösungen.
Mehrsprachige Leistung
Im Gegensatz zu vielen Modellen, die nur in Englisch herausragen, liefert Gemma 4 starke Leistung in über 140 Sprachen. Der MMMLU-Score von 85,2% spiegelt gleichbleibende Qualität über Sprachgrenzen hinweg wider.
Effizienz durch MoE-Architektur
Die 26B A4B MoE-Variante erreicht nahezu Flaggschiff-Leistung, während pro Inferenz nur 4B Parameter aktiviert werden, was ein außergewöhnliches Leistungs-pro-Rechenaufwand-Verhältnis für Produktions-Deployments liefert.
Benchmark-FAQ
In welchen Benchmarks schneidet Gemma 4 am besten ab?
Gemma 4 31B glänzt besonders bei mathematischem Reasoning (AIME 2026: 89,2%), wissenschaftlichem Wissen (GPQA Diamond: 84,3%) und Code-Generierung (LiveCodeBench v6: 80%). Diese Scores erreichen oder übertreffen viele proprietäre Modelle.
Wie schneidet Gemma 4 im Vergleich zu Llama 4 ab?
Gemma 4 31B und Llama 4 sind beide wettbewerbsfähige Open-Source-Modelle. Gemma 4 ist tendenziell stärker bei multimodalen Aufgaben, mehrsprachigem Verständnis und mathematischem Reasoning, während beide Modelle je nach Benchmark die Führung übernehmen.
Sind Benchmark-Scores über Quantisierungsstufen hinweg konsistent?
Typischerweise gibt es eine Degradation von 1-3% bei INT8-Quantisierung und 2-5% bei INT4. Der genaue Einfluss variiert je nach Benchmark und Modellvariante. BF16 (volle Präzision) liefert die besten Scores.
Erreicht das MoE-Modell (26B A4B) das Dense-Modell (31B)?
Das 26B MoE-Modell erreicht etwa 90-95% der Benchmark-Scores des 31B Dense-Modells, benötigt aber deutlich weniger Rechenleistung pro Inferenz. Für die meisten praktischen Anwendungen ist der Qualitätsunterschied vernachlässigbar.
Wie wurden diese Benchmarks gemessen?
Die Benchmark-Scores basieren auf offiziellen Evaluierungen von Google DeepMind nach standardisierten Bewertungsprotokollen. Unabhängige Reproduktionen durch die Community auf Plattformen wie dem Hugging Face Open LLM Leaderboard haben ähnliche Ergebnisse bestätigt.
Ist Gemma 4 das beste Open-Source-Modell?
Stand April 2026 gehört Gemma 4 31B in den meisten wichtigen Benchmarks zu den Top-Open-Source-Modellen. Die Landschaft entwickelt sich schnell, aber Gemma 4s Kombination aus multimodalen Fähigkeiten, langem Kontext und starkem Reasoning macht es zu einer führenden Wahl.
benchmarksPage.faq.items.6.q
benchmarksPage.faq.items.6.a
benchmarksPage.faq.items.7.q
benchmarksPage.faq.items.7.a
benchmarksPage.faq.items.8.q
benchmarksPage.faq.items.8.a
benchmarksPage.faq.items.9.q
benchmarksPage.faq.items.9.a
Gemma 4 Performance erleben
Sehen Sie die Benchmark-Zahlen in Aktion. Probieren Sie Gemma 4 im Browser aus oder stellen Sie es auf Ihrer eigenen Hardware bereit.