Gemma 4 基准测试结果
Gemma 4 在各大权威基准测试中表现卓越,确立了其作为最强开源模型家族的地位。旗舰级 31B 稠密模型的成绩可与 OpenAI、Anthropic 和 Google 自家 Gemini 等闭源模型一较高下。
本页提供详细的基准测试分数、测试方法说明和跨模型对比,帮助你评估哪个 Gemma 4 变体最适合你的使用场景。
核心基准测试成绩
Gemma 4 31B 旗舰模型在关键基准测试上的表现:
AIME 2026
数学推理美国数学邀请赛基准,测试高级数学推理和多步骤问题求解能力。Gemma 4 的 89.2% 成绩展现了在竞赛级数学(代数、几何、数论和组合)方面的卓越能力。
LiveCodeBench v6
代码生成评测真实编程能力的基准测试,涵盖多种编程语言的代码生成、调试、重构和理解任务。80% 的成绩使 Gemma 4 跻身顶级编程模型之列。
GPQA Diamond
专家知识研究生级别的问答测试,涵盖物理、化学和生物学。题目由领域专家设计并经博士级审核。Gemma 4 的优异表现证明了其深厚的科学推理能力。
MMMLU
多语言理解大规模多任务多语言理解基准,评估 140+ 种语言和数十个学科的知识广度与推理能力。该成绩确认了 Gemma 4 作为真正多语言模型的实力。
各模型变体性能对比
各 Gemma 4 变体相对于 31B 旗舰模型的表现:
| Model | AIME 2026 | LCB v6 | GPQA | MMMLU |
|---|---|---|---|---|
| 31B Dense | 89.2% | 80.0% | 84.3% | 85.2% |
| 26B A4B MoE | ~85% | ~76% | ~80% | ~82% |
| E4B | ~62% | ~55% | ~58% | ~68% |
| E2B | ~45% | ~38% | ~42% | ~55% |
分数为近似值,可能因量化级别和推理配置而异。31B 模型代表 Gemma 4 家族的最高性能。
核心优势评测
数学推理能力
89.2% 的 AIME 成绩是开源模型中最高之一,展示了 Gemma 4 处理复杂多步骤数学问题的卓越逻辑推理能力。
代码生成质量
LiveCodeBench v6 上 80% 的成绩意味着 Gemma 4 能生成 Python、JavaScript、TypeScript、Go、Rust 等语言的生产级代码,擅长理解复杂代码库并生成上下文恰当的解决方案。
多语言性能
不同于许多仅在英语上表现优秀的模型,Gemma 4 在 140+ 种语言上保持高质量表现。85.2% 的 MMMLU 成绩反映了其跨语言的一致性。
MoE 架构效率
26B A4B MoE 变体在每次推理仅激活 40 亿参数的情况下达到接近旗舰级的性能,为生产部署提供了极高的性能-计算比。
基准测试常见问题
Gemma 4 在哪些基准测试上表现最好?
Gemma 4 31B 在数学推理 (AIME 2026: 89.2%)、科学知识 (GPQA Diamond: 84.3%) 和代码生成 (LiveCodeBench v6: 80%) 上表现尤为出色。这些成绩可与许多闭源模型匹敌甚至超越。
Gemma 4 和 Llama 4 相比如何?
Gemma 4 31B 和 Llama 4 都是有竞争力的开源模型。Gemma 4 在多模态任务、多语言理解和数学推理方面往往表现更好,但两者在不同基准上互有胜负。
量化后基准成绩会变吗?
INT8 量化通常会导致 1-3% 的成绩下降,INT4 约 2-5%。具体影响因基准和模型变体而异。BF16(全精度)提供最佳成绩。
MoE 模型 (26B A4B) 能达到稠密模型 (31B) 的水平吗?
26B MoE 模型大约能达到 31B 稠密模型基准成绩的 90-95%,同时每次推理所需的计算量显著减少。对于大多数实际应用来说,质量差异可以忽略不计。
这些基准是如何测量的?
基准成绩基于 Google DeepMind 使用标准评估协议进行的官方评测。社区在 Hugging Face Open LLM Leaderboard 等平台的独立复现也确认了相似的结果。
Gemma 4 是最好的开源模型吗?
截至 2026 年 4 月,Gemma 4 31B 在大多数主要基准上位居开源模型前列。虽然行业发展迅速,但 Gemma 4 在多模态能力、长上下文和强推理方面的综合表现使其成为领先之选。
benchmarksPage.faq.items.6.q
benchmarksPage.faq.items.6.a
benchmarksPage.faq.items.7.q
benchmarksPage.faq.items.7.a
benchmarksPage.faq.items.8.q
benchmarksPage.faq.items.8.a
benchmarksPage.faq.items.9.q
benchmarksPage.faq.items.9.a