Gemma 4 ハードウェア要件
Gemma 4 の最大の強みの一つは、スマートフォンで動作する超小型の E2B から、ハイエンド GPU が必要なフラッグシップの 31B まで、幅広いモデルサイズを提供していることです。このガイドでは、各バリエーションの正確なハードウェア要件を詳しく解説し、環境に適したモデルを選べるようにします。
ハードウェア要件は、モデルバリエーション、量子化レベル、コンテキスト長という 3 つの要因によって決まります。量子化レベルを下げたり、コンテキストを短くしたりすると、要件が大幅に軽減され、Gemma 4 を幅広いハードウェアで利用できるようになります。
クイックリファレンス:最小要件
| モデル | パラメータ | VRAM(FP16) | VRAM(INT8) | VRAM(INT4) | ディスク容量 |
|---|---|---|---|---|---|
| E2B | 2B | 4 GB | 2.5 GB | 1.5 GB | ~1.5–4 GB |
| E4B | 4B | 8 GB | 5 GB | 3 GB | ~3–8 GB |
| 26B MoE | 26B | 52 GB | 28 GB | 16 GB | ~15–52 GB |
| 31B Dense | 31B | 62 GB | 33 GB | 18 GB | ~18–62 GB |
モデル別の詳細要件
Gemma 4 E2B — エッジ&モバイル
1.5〜4 GB
最低 4 GB のシステム RAM
約 1.5 GB(量子化)/約 4 GB(FP16)
専用 GPU は不要。CPU、モバイル NPU、内蔵 GPU で動作します。
Devices: スマートフォン(iOS/Android)、Raspberry Pi 5、タブレット、エッジ機器
E2B モデルはリソースが制約された環境向けに特別に設計されています。モバイル NPU や CPU のみの構成でも効率的に動作します。プライバシーとレイテンシが優先されるオンデバイス推論に最適です。
Gemma 4 E4B — ノートPC&デスクトップ
3〜8 GB
最低 8 GB のシステム RAM
約 3 GB(量子化)/約 8 GB(FP16)
4GB 以上の VRAM を持つ任意の GPU、または十分な RAM がある CPU のみ
Devices: ノートパソコン、デスクトップ、Apple Silicon 搭載 Mac(M1 以降)、ローエンドクラウドインスタンス
個人用途の多くに最適なバランス。8GB のユニファイドメモリを持つ MacBook Air M1 でも快適に動作します。Windows/Linux では RTX 3060(12GB)が難なく処理できます。CPU 推論も可能ですが遅くなります。
Gemma 4 26B A4B(MoE) — デスクトップ GPU
16〜52 GB
32 GB のシステム RAM を推奨
約 15 GB(量子化)/約 52 GB(FP16)
RTX 4090(24GB)、RTX A5000、A100(40/80GB)、または Apple M2 Ultra 以降
Devices: ハイエンドデスクトップ、ワークステーション、クラウド GPU インスタンス(A100、L4、H100)
合計 26B パラメータですが、MoE アーキテクチャにより推論ごとに 4B パラメータのみが活性化されます。INT4 量子化で VRAM 使用量が約 16GB となり、RTX 4090 でも実行可能になります。FP16 では 48GB 以上の VRAM またはマルチ GPU 構成が必要です。
Gemma 4 31B Dense — ワークステーション&サーバー
18〜62 GB
64 GB のシステム RAM を推奨
約 18 GB(量子化)/約 62 GB(FP16)
RTX 4090(INT4 用 24GB)、A100(40/80GB)、H100、または Apple M2 Ultra 以降
Devices: ワークステーション、サーバー、クラウド GPU インスタンス、マルチ GPU 構成
フラッグシップモデルはフル精度では本格的なハードウェアが必要ですが、INT4 量子化なら単一の RTX 4090 でも実行可能です。大規模な本番サービングでは A100 または H100 GPU を推奨します。64GB 以上のユニファイドメモリを持つ Apple Silicon 搭載 Mac では MLX 経由で実行できます。
推奨 GPU
Gemma 4 にはどの GPU を選べばよいか?
NVIDIA RTX 4060(8GB)
E2B、E4BGemma 4 のエントリーレベル。E4B を INT4 で快適に処理できます。
NVIDIA RTX 4070 Ti Super(16GB)
E2B、E4B、26B(INT4)26B MoE モデルを INT4 量子化で実行できます。
NVIDIA RTX 4090(24GB)
すべてのモデル(量子化)最適な選択肢。すべてのモデルを INT4 で、26B を INT8 で実行できます。
NVIDIA A100(40/80GB)
すべてのモデル(すべての精度)プロフェッショナル/クラウド GPU。80GB モデルでは全モデルを FP16 で実行可能です。
Apple M3 Max(36/48GB)
E2B、E4B、26B(INT4/INT8)ユニファイドメモリ。MLX フレームワークとの相性が良好です。
Apple M2/M3 Ultra(64〜192GB)
すべてのモデル(すべての精度)大容量のユニファイドメモリは 31B を FP16 でも処理できます。
コンテキスト長がメモリに与える影響
長いコンテキストウィンドウは、モデル重みに加えて追加のメモリを必要とします。KV キャッシュはコンテキスト長に比例して増加します:
| Context | E4B | 26B MoE | 31B Dense |
|---|---|---|---|
| 8K | +0.2 GB | +0.5 GB | +0.6 GB |
| 32K | +0.8 GB | +2.0 GB | +2.4 GB |
| 128K | +3.2 GB | +8.0 GB | +9.6 GB |
| 256K | N/A | +16 GB | +19.2 GB |
これらはベースモデルに加えて必要な追加 VRAM の概算値です。実際の使用量はバッチサイズと実装によって異なります。
ハードウェアに関するよくある質問
GPU なしで Gemma 4 を実行できますか?
はい。すべての Gemma 4 バリエーションは Ollama または llama.cpp 経由で CPU 推論をサポートしています。E2B と E4B は現代的な CPU で妥当な速度で動作します。より大きなモデルは遅くなりますが動作します。十分なシステム RAM(モデルファイルサイズの約 2 倍)があることを確認してください。
Gemma 4 にはどれくらいの VRAM が必要ですか?
INT4 量子化の場合:E2B は約 1.5GB、E4B は約 3GB、26B MoE は約 16GB、31B Dense は約 18GB。FP16(フル精度)の場合:E2B は約 4GB、E4B は約 8GB、26B は約 52GB、31B は約 62GB。ほとんどのユーザーは INT4 または INT8 量子化を使用するべきです。
RTX 4090 で Gemma 4 31B を実行できますか?
はい、INT4 量子化(約 18GB VRAM)で実行できます。RTX 4090 の 24GB で十分です。より高い精度では VRAM がさらに必要です。A100 80GB やマルチ GPU 構成を検討してください。
Apple Silicon 搭載 Mac はどうですか?
ユニファイドメモリを持つ Apple Silicon 搭載 Mac は Gemma 4 に最適です。16GB の M1/M2 は E4B を快適に実行します。M3 Max(36〜48GB)は 26B MoE を処理できます。M2/M3 Ultra(64GB 以上)は 31B モデルを実行できます。最高性能のため MLX または Ollama を使用してください。
量子化は品質に影響しますか?
INT8 量子化は通常、品質の 98〜99% を維持します。INT4 は 93〜95% を維持します。ほとんどの実用的なユースケースでは INT4 で十分です。正確な再現性を必要とする研究や評価タスクだけが FP16 の恩恵を受けます。
Gemma 4 を複数の GPU に分割できますか?
はい。vLLM、llama.cpp、その他のフレームワークは複数 GPU にまたがるテンソル並列をサポートしています。これにより、2 枚の RTX 4090(合計 48GB)や同様の構成で 31B モデルをより高い精度で実行できます。
requirementsPage.faq.items.6.q
requirementsPage.faq.items.6.a
requirementsPage.faq.items.7.q
requirementsPage.faq.items.7.a
requirementsPage.faq.items.8.q
requirementsPage.faq.items.8.a
requirementsPage.faq.items.9.q
requirementsPage.faq.items.9.a