Gemma 4

Gemma 4 基准测试结果

Gemma 4 在各大权威基准测试中表现卓越,确立了其作为最强开源模型家族的地位。旗舰级 31B 稠密模型的成绩可与 OpenAI、Anthropic 和 Google 自家 Gemini 等闭源模型一较高下。

本页提供详细的基准测试分数、测试方法说明和跨模型对比,帮助你评估哪个 Gemma 4 变体最适合你的使用场景。

核心基准测试成绩

Gemma 4 31B 旗舰模型在关键基准测试上的表现:

AIME 2026

数学推理
89.2%

美国数学邀请赛基准,测试高级数学推理和多步骤问题求解能力。Gemma 4 的 89.2% 成绩展现了在竞赛级数学(代数、几何、数论和组合)方面的卓越能力。

LiveCodeBench v6

代码生成
80.0%

评测真实编程能力的基准测试,涵盖多种编程语言的代码生成、调试、重构和理解任务。80% 的成绩使 Gemma 4 跻身顶级编程模型之列。

GPQA Diamond

专家知识
84.3%

研究生级别的问答测试,涵盖物理、化学和生物学。题目由领域专家设计并经博士级审核。Gemma 4 的优异表现证明了其深厚的科学推理能力。

MMMLU

多语言理解
85.2%

大规模多任务多语言理解基准,评估 140+ 种语言和数十个学科的知识广度与推理能力。该成绩确认了 Gemma 4 作为真正多语言模型的实力。

各模型变体性能对比

各 Gemma 4 变体相对于 31B 旗舰模型的表现:

ModelAIME 2026LCB v6GPQAMMMLU
31B Dense89.2%80.0%84.3%85.2%
26B A4B MoE~85%~76%~80%~82%
E4B~62%~55%~58%~68%
E2B~45%~38%~42%~55%

分数为近似值,可能因量化级别和推理配置而异。31B 模型代表 Gemma 4 家族的最高性能。

核心优势评测

数学推理能力

89.2% 的 AIME 成绩是开源模型中最高之一,展示了 Gemma 4 处理复杂多步骤数学问题的卓越逻辑推理能力。

代码生成质量

LiveCodeBench v6 上 80% 的成绩意味着 Gemma 4 能生成 Python、JavaScript、TypeScript、Go、Rust 等语言的生产级代码,擅长理解复杂代码库并生成上下文恰当的解决方案。

多语言性能

不同于许多仅在英语上表现优秀的模型,Gemma 4 在 140+ 种语言上保持高质量表现。85.2% 的 MMMLU 成绩反映了其跨语言的一致性。

MoE 架构效率

26B A4B MoE 变体在每次推理仅激活 40 亿参数的情况下达到接近旗舰级的性能,为生产部署提供了极高的性能-计算比。

基准测试常见问题

Gemma 4 在哪些基准测试上表现最好?

Gemma 4 31B 在数学推理 (AIME 2026: 89.2%)、科学知识 (GPQA Diamond: 84.3%) 和代码生成 (LiveCodeBench v6: 80%) 上表现尤为出色。这些成绩可与许多闭源模型匹敌甚至超越。

Gemma 4 和 Llama 4 相比如何?

Gemma 4 31B 和 Llama 4 都是有竞争力的开源模型。Gemma 4 在多模态任务、多语言理解和数学推理方面往往表现更好,但两者在不同基准上互有胜负。

量化后基准成绩会变吗?

INT8 量化通常会导致 1-3% 的成绩下降,INT4 约 2-5%。具体影响因基准和模型变体而异。BF16(全精度)提供最佳成绩。

MoE 模型 (26B A4B) 能达到稠密模型 (31B) 的水平吗?

26B MoE 模型大约能达到 31B 稠密模型基准成绩的 90-95%,同时每次推理所需的计算量显著减少。对于大多数实际应用来说,质量差异可以忽略不计。

这些基准是如何测量的?

基准成绩基于 Google DeepMind 使用标准评估协议进行的官方评测。社区在 Hugging Face Open LLM Leaderboard 等平台的独立复现也确认了相似的结果。

Gemma 4 是最好的开源模型吗?

截至 2026 年 4 月,Gemma 4 31B 在大多数主要基准上位居开源模型前列。虽然行业发展迅速,但 Gemma 4 在多模态能力、长上下文和强推理方面的综合表现使其成为领先之选。

benchmarksPage.faq.items.6.q

benchmarksPage.faq.items.6.a

benchmarksPage.faq.items.7.q

benchmarksPage.faq.items.7.a

benchmarksPage.faq.items.8.q

benchmarksPage.faq.items.8.a

benchmarksPage.faq.items.9.q

benchmarksPage.faq.items.9.a

亲身体验 Gemma 4 的性能

用实际效果验证基准数据。在浏览器中试用 Gemma 4 或部署到你自己的硬件上。