Résultats de benchmark de Gemma 4
Gemma 4 offre des performances de pointe sur les principaux benchmarks académiques et industriels, s'imposant comme la famille de modèles open source la plus performante disponible. Le modèle dense phare 31B rivalise avec les modèles propriétaires d'OpenAI, d'Anthropic et de la propre gamme Gemini de Google.
Cette page fournit des scores de benchmark détaillés, des explications méthodologiques et des comparaisons entre modèles pour vous aider à évaluer quelle variante de Gemma 4 convient le mieux à votre cas d'utilisation.
Scores de benchmark principaux
Performance du modèle phare Gemma 4 31B sur les benchmarks clés :
AIME 2026
Raisonnement mathématiqueL'American Invitational Mathematics Examination teste le raisonnement mathématique avancé et la résolution de problèmes multi-étapes. Le score de 89,2% de Gemma 4 démontre une capacité exceptionnelle en mathématiques de niveau compétition, incluant l'algèbre, la géométrie, la théorie des nombres et la combinatoire.
LiveCodeBench v6
Génération de codeLiveCodeBench évalue la capacité de codage en conditions réelles à travers la génération de code, le débogage, la refactorisation et les tâches de compréhension dans plusieurs langages de programmation. Le score de 80% place Gemma 4 parmi les meilleurs modèles de codage disponibles.
GPQA Diamond
Connaissances expertesQuestions-réponses de niveau supérieur couvrant la physique, la chimie et la biologie. Les questions sont conçues par des experts du domaine et vérifiées par des évaluateurs de niveau doctorat. Les solides performances de Gemma 4 indiquent de profondes capacités de raisonnement scientifique.
MMMLU
Compréhension multilingueMassive Multitask Multilingual Language Understanding évalue les connaissances générales et le raisonnement dans plus de 140 langues et des dizaines de sujets académiques. Ce score confirme la force de Gemma 4 en tant que modèle véritablement multilingue.
Performances entre variantes du modèle
Comment chaque variante de Gemma 4 se comporte par rapport au modèle phare 31B :
| Model | AIME 2026 | LCB v6 | GPQA | MMMLU |
|---|---|---|---|---|
| 31B Dense | 89.2% | 80.0% | 84.3% | 85.2% |
| 26B A4B MoE | ~85% | ~76% | ~80% | ~82% |
| E4B | ~62% | ~55% | ~58% | ~68% |
| E2B | ~45% | ~38% | ~42% | ~55% |
Les scores sont approximatifs et peuvent varier en fonction du niveau de quantification et de la configuration d'inférence. Le modèle 31B représente le sommet des performances de la famille Gemma 4.
Points forts clés en revue
Raisonnement mathématique
Le score AIME de 89,2% est parmi les plus élevés pour tout modèle open source, démontrant la capacité exceptionnelle de Gemma 4 à gérer des problèmes mathématiques complexes en plusieurs étapes nécessitant un raisonnement logique approfondi.
Qualité de génération de code
Avec 80% sur LiveCodeBench v6, Gemma 4 produit du code de qualité production dans Python, JavaScript, TypeScript, Go, Rust et d'autres langages. Il excelle dans la compréhension de bases de code complexes et la génération de solutions contextuellement appropriées.
Performances multilingues
Contrairement à de nombreux modèles qui n'excellent qu'en anglais, Gemma 4 maintient de solides performances dans plus de 140 langues. Le score MMMLU de 85,2% reflète une qualité constante au-delà des frontières linguistiques.
Efficacité via l'architecture MoE
La variante MoE 26B A4B atteint des performances proches du modèle phare tout en n'activant que 4B paramètres par inférence, offrant un rapport performances/calcul exceptionnel pour les déploiements en production.
FAQ sur les benchmarks
Sur quels benchmarks Gemma 4 performe-t-il le mieux ?
Gemma 4 31B excelle particulièrement en raisonnement mathématique (AIME 2026 : 89,2%), connaissances scientifiques (GPQA Diamond : 84,3%) et génération de code (LiveCodeBench v6 : 80%). Ces scores rivalisent ou dépassent de nombreux modèles propriétaires.
Comment Gemma 4 se compare-t-il à Llama 4 ?
Gemma 4 31B et Llama 4 sont tous deux des modèles open source compétitifs. Gemma 4 a tendance à surpasser dans les tâches multimodales, la compréhension multilingue et le raisonnement mathématique, tandis que les deux modèles échangent les premières places sur différents benchmarks.
Les scores de benchmark sont-ils cohérents entre les niveaux de quantification ?
Il y a généralement une dégradation de 1-3% des performances de benchmark lors de l'utilisation de la quantification INT8, et 2-5% avec INT4. L'impact exact varie selon le benchmark et la variante du modèle. BF16 (pleine précision) offre les meilleurs scores.
Le modèle MoE (26B A4B) égale-t-il le modèle dense (31B) ?
Le modèle MoE 26B atteint environ 90-95% des scores de benchmark du modèle dense 31B tout en nécessitant beaucoup moins de calcul par inférence. Pour la plupart des applications pratiques, la différence de qualité est négligeable.
Comment ces benchmarks ont-ils été mesurés ?
Les scores de benchmark sont basés sur les évaluations officielles de Google DeepMind utilisant des protocoles d'évaluation standards. Les reproductions indépendantes par la communauté sur des plateformes comme Hugging Face Open LLM Leaderboard ont confirmé des résultats similaires.
Gemma 4 est-il le meilleur modèle open source ?
En avril 2026, Gemma 4 31B figure parmi les meilleurs modèles open source sur la plupart des benchmarks majeurs. Le paysage évolue rapidement, mais la combinaison de capacités multimodales, de contexte long et de raisonnement solide de Gemma 4 en fait un choix de premier plan.
benchmarksPage.faq.items.6.q
benchmarksPage.faq.items.6.a
benchmarksPage.faq.items.7.q
benchmarksPage.faq.items.7.a
benchmarksPage.faq.items.8.q
benchmarksPage.faq.items.8.a
benchmarksPage.faq.items.9.q
benchmarksPage.faq.items.9.a
Faites l'expérience des performances de Gemma 4
Voyez les chiffres de benchmark en action. Essayez Gemma 4 dans votre navigateur ou déployez-le sur votre propre matériel.