Gemma 4 ベンチマーク結果

Gemma 4 は主要な学術・業界ベンチマークで最先端の性能を発揮し、利用可能な最も高性能なオープンソースモデルファミリーとしての地位を確立しています。フラッグシップの 31B Dense モデルは、OpenAI、Anthropic、そして Google 自身の Gemini ラインのプロプライエタリモデルに匹敵します。

このページでは、どの Gemma 4 バリエーションがユースケースに最適かを評価できるよう、詳細なベンチマークスコア、手法の説明、モデル間の比較を提供します。

主要ベンチマークスコア

Gemma 4 31B フラッグシップモデルの主要ベンチマークでの性能：

AIME 2026

数学的推論

89.2%

American Invitational Mathematics Examination は、高度な数学的推論と多段階の問題解決を評価します。Gemma 4 の 89.2% というスコアは、代数、幾何学、整数論、組合せ論など、競技レベルの数学における卓越した能力を示しています。

LiveCodeBench v6

コード生成

80.0%

LiveCodeBench は、複数のプログラミング言語にわたるコード生成、デバッグ、リファクタリング、理解タスクで実世界のコーディング能力を評価します。80% というスコアにより、Gemma 4 は利用可能な最上位のコーディングモデルの一つに位置付けられます。

GPQA Diamond

専門知識

84.3%

物理学、化学、生物学にまたがる大学院レベルの質問応答。問題は領域の専門家によって設計され、博士レベルのレビュアーによって検証されています。Gemma 4 の高い性能は、深い科学的推論能力を示しています。

MMMLU

多言語理解

85.2%

Massive Multitask Multilingual Language Understanding は、140 以上の言語と数十の学術分野にわたる幅広い知識と推論能力を評価します。このスコアは、Gemma 4 が真に多言語対応のモデルであることを裏付けています。

モデルバリエーション別の性能

各 Gemma 4 バリエーションが 31B フラッグシップに対してどの程度の性能を発揮するか：

Model	AIME 2026	LCB v6	GPQA	MMMLU
31B Dense	89.2%	80.0%	84.3%	85.2%
26B A4B MoE	~85%	~76%	~80%	~82%
E4B	~62%	~55%	~58%	~68%
E2B	~45%	~38%	~42%	~55%

スコアは概算であり、量子化レベルと推論設定によって変動する可能性があります。31B モデルは Gemma 4 ファミリーの最高性能を表します。

レビューにおける主要な強み

数学的推論

89.2% の AIME スコアはあらゆるオープンソースモデルの中でも最高水準であり、Gemma 4 が深い論理的推論を必要とする複雑で多段階の数学問題を処理する卓越した能力を持つことを示しています。

コード生成の品質

LiveCodeBench v6 で 80% を達成し、Gemma 4 は Python、JavaScript、TypeScript、Go、Rust など、さまざまな言語で本番品質のコードを生成します。複雑なコードベースの理解と文脈に適した解決策の生成に優れています。

多言語性能

英語だけに秀でた多くのモデルとは異なり、Gemma 4 は 140 以上の言語で高い性能を維持します。MMMLU の 85.2% スコアは、言語の境界を越えた一貫した品質を反映しています。

MoE アーキテクチャによる効率性

26B A4B MoE バリエーションは、推論ごとに 4B パラメータのみを活性化しながらもフラッグシップに近い性能を達成し、本番デプロイにおいて優れた性能対計算コスト比を実現します。

ベンチマークに関するよくある質問

Gemma 4 はどのベンチマークで最も優れた性能を発揮しますか？

Gemma 4 31B は特に数学的推論（AIME 2026：89.2%）、科学知識（GPQA Diamond：84.3%）、コード生成（LiveCodeBench v6：80%）で優れています。これらのスコアは多くのプロプライエタリモデルに匹敵するか上回っています。

Gemma 4 は Llama 4 と比べてどうですか？

Gemma 4 31B と Llama 4 は、いずれも競争力のあるオープンソースモデルです。Gemma 4 はマルチモーダルタスク、多言語理解、数学的推論で優れる傾向があり、両モデルはベンチマークごとにリードを交代しています。

ベンチマークスコアは量子化レベルで一貫していますか？

INT8 量子化ではベンチマーク性能に通常 1〜3% の低下があり、INT4 では 2〜5% の低下があります。正確な影響はベンチマークとモデルバリエーションによって異なります。BF16（フル精度）が最良のスコアを提供します。

MoE モデル（26B A4B）は Dense モデル（31B）に匹敵しますか？

26B MoE モデルは 31B Dense モデルのベンチマークスコアの約 90〜95% を達成しながら、推論ごとの計算量は大幅に少なくて済みます。ほとんどの実用的なアプリケーションでは、品質の差は無視できる程度です。

これらのベンチマークはどのように測定されましたか？

ベンチマークスコアは、標準的な評価プロトコルを使用した Google DeepMind の公式評価に基づいています。Hugging Face Open LLM Leaderboard などのプラットフォームでコミュニティが独立して再現した結果も、同様の結果を確認しています。

Gemma 4 は最高のオープンソースモデルですか？

2026 年 4 月時点で、Gemma 4 31B は主要なベンチマークのほとんどでトップクラスのオープンソースモデルの一つです。状況は急速に変化していますが、マルチモーダル機能、長いコンテキスト、強力な推論能力を兼ね備えた Gemma 4 は主要な選択肢です。

benchmarksPage.faq.items.6.q

benchmarksPage.faq.items.6.a

benchmarksPage.faq.items.7.q

benchmarksPage.faq.items.7.a

benchmarksPage.faq.items.8.q

benchmarksPage.faq.items.8.a

benchmarksPage.faq.items.9.q

benchmarksPage.faq.items.9.a

Gemma 4 の性能を体験する

ベンチマークの数字を実際に確かめてみましょう。ブラウザで Gemma 4 を試すか、自分のハードウェアにデプロイしてください。

Gemma 4 をオンラインで試すローカルにデプロイ