Hugging Face から Gemma 4 GGUF とモデル重みをダウンロード
Gemma 4 のモデル重みは、Hugging Face、Kaggle、Ollama、ModelScope から無料で入手できます。本ガイドは E2B、E4B、26B MoE、31B Dense のすべてのバリアントと、フル精度 SafeTensors、量子化 GGUF(Q4 / Q5 / Q8)、GPTQ、MLX のすべての形式をカバーし、直接ダウンロードリンクとファイルサイズを掲載しています。
すべての Gemma 4 モデルは Apache 2.0 ライセンスでリリースされており、商用利用を含むあらゆる目的で自由にダウンロード、使用、改変、再配布できます。
Gemma 4 GGUF の Hugging Face ダウンロードサイズ
Hugging Face 上の unsloth 公式 Gemma 4 GGUF リポジトリから読み取った実ファイルサイズ——Gemma 4 GGUF の最多ダウンロードパブリッシャー。リポジトリパスをクリックしてファイルリストを表示。
| モデル | 総パラメータ | Q4_K_M | Q5_K_M | Q8_0 | BF16 | Hugging Face リポジトリ |
|---|---|---|---|---|---|---|
| Gemma 4 E2B-it | 5B | 3.11 GB | 3.36 GB | 5.05 GB | 9.31 GB | unsloth/gemma-4-E2B-it-GGUF |
| Gemma 4 E4B-it | 8B | 4.98 GB | 5.48 GB | 8.19 GB | 15.1 GB | unsloth/gemma-4-E4B-it-GGUF |
| Gemma 4 26B-A4B-it | 27B(MoE、アクティブ 4B) | 16.9 GB | 21.2 GB | 26.9 GB | — | unsloth/gemma-4-26B-A4B-it-GGUF |
| Gemma 4 31B-it | 33B(Dense) | 18.3 GB | 21.7 GB | 32.6 GB | — | unsloth/gemma-4-31B-it-GGUF |
サイズは 2026-04-21 に unsloth の Hugging Face リポジトリから確認。フル精度 SafeTensors は公式 google/gemma-4-E2B、-E4B、-26B-A4B、-31B リポジトリをご利用ください(指示チューニング版は -it 付き)。26B-A4B の Q4 / Q5 ファイルは unsloth が配信する Unsloth Dynamic(UD)版で、サイズは Q4_K_M / Q5_K_M 同等帯域です。
公式ダウンロードソース
Hugging Face
Gemma 4 モデル重みの主要プラットフォーム。SafeTensors、GGUF、GPTQ 量子化バージョンなど、複数のフォーマットですべてのバリエーションを提供。git ベースのダウンロード、Hugging Face CLI、ブラウザからの直接ダウンロードをサポートします。
- • すべてのモデルバリエーションとサイズ
- • 複数の量子化フォーマット
- • Git LFS と CLI ダウンロード
- • コミュニティ提供の量子化
- • ドキュメント付きモデルカード
Kaggle
Google のデータサイエンスプラットフォームが公式の Gemma 4 モデル重みをホストしています。すでに Kaggle エコシステムを利用しているユーザーに便利で、ノートブック統合により素早く実験できます。
- • Google 公式配布
- • ノートブック統合
- • バージョン管理
- • 直接ダウンロード
Ollama ライブラリ
Ollama でのローカル推論向けに最適化された事前パッケージの Gemma 4 モデル。1 つのコマンドでダウンロード・実行できます。モデルはハードウェアに合わせて自動的に量子化・最適化されます。
- • 1 コマンドインストール
- • ハードウェア向けに自動最適化
- • すべてのバリエーションが利用可能
- • 自動更新
ModelScope(魔搭社区)
アジアのユーザー向けに高速ダウンロードを提供する中国発のモデルホスティングプラットフォーム。中国語の完全なドキュメントとともに公式 Gemma 4 モデルをミラーリングしています。
- • 中国・アジアでの高速ダウンロード
- • 中国語ドキュメント
- • Git ベースのダウンロード
- • コミュニティモデル
モデルフォーマットガイド
Gemma 4 で利用可能なさまざまなモデルファイルフォーマットを理解しましょう:
SafeTensors(.safetensors)
Hugging Face のデフォルトフォーマット。コード実行の脆弱性を防ぐよう設計された、安全で高速に読み込めるテンソル。Hugging Face Transformers、vLLM、その他の Python ベースのフレームワークで使用されます。
研究、ファインチューニング、Python フレームワーク、vLLM サービング
GGUF(.gguf)
llama.cpp と Ollama の標準フォーマット。さまざまな量子化レベル(Q4、Q5、Q8 など)をサポートし、モデルサイズとメモリ要件を削減します。CPU および CPU/GPU 混在推論向けに最適化されています。
ローカル推論、Ollama、llama.cpp、KoboldCpp、LM Studio
GPTQ
高い精度を維持しながら VRAM 要件を大幅に削減する、GPU 最適化された量子化フォーマット。Hugging Face のコミュニティ提供により入手できます。
VRAM を削減した GPU 推論、本番サービング
MLX フォーマット
Apple Silicon(M1/M2/M3/M4)向けに最適化された Apple のネイティブ ML フォーマット。ユニファイドメモリアーキテクチャを活用し、Mac ハードウェアで効率的な推論を実現します。
Apple Silicon 搭載 Mac、MLX フレームワーク
量子化ガイド
量子化はある程度の精度を犠牲に、モデルサイズとメモリ使用量を削減します。Gemma 4 におけるレベル別の比較は以下の通りです:
| Format | Bits | Quality | Notes |
|---|---|---|---|
| BF16 / FP16(フル精度) | 16 ビット | 100% | 精度を損なわない完全なモデル品質。最も多くの VRAM とディスク容量を必要とします。 |
| INT8 / Q8 | 8 ビット | 約 98〜99% | 品質の低下は最小限。FP16 と比較して VRAM 要件が半分になります。ほとんどの GPU デプロイに推奨されます。 |
| Q5_K_M | 5 ビット | 約 95〜97% | 品質とサイズのバランスが良好。GGUF フォーマットでのローカル推論で人気の選択肢です。 |
| INT4 / Q4_K_M | 4 ビット | 約 93〜95% | ほとんどのユースケースで許容できる品質で大幅なサイズ削減。コンシューマーハードウェアでより大きなモデルを実行できます。 |
コマンドラインからのダウンロード
Hugging Face CLI
Hugging Face CLI をインストールして、モデルを直接ダウンロードします:
pip install huggingface_hub
# Full-precision SafeTensors (official Google repo)
huggingface-cli download google/gemma-4-31B-it
# GGUF quantized (community, unsloth — most downloaded)
huggingface-cli download unsloth/gemma-4-31B-it-GGUF \
--include "gemma-4-31B-it-Q4_K_M.gguf"Git LFS
Git Large File Storage でモデルリポジトリをクローンします:
git lfs install
git clone https://huggingface.co/google/gemma-4-31B-itOllama CLI
モデルを Ollama に直接プルします:
# Pull any variant
ollama pull gemma4:e2b
ollama pull gemma4:e4b
ollama pull gemma4:26b
ollama pull gemma4:31bダウンロードに関するよくある質問
Gemma 4 をダウンロードする最適な場所は?
Hugging Face はすべてのフォーマットとバリエーションを提供する最も包括的なソースです。1 コマンドのローカルセットアップには Ollama を使用してください。中国のユーザーには、ModelScope がより高速なダウンロードを提供します。
どのフォーマットをダウンロードすべきですか?
Ollama または llama.cpp 用:GGUF ファイルをダウンロードします。Python/vLLM 用:SafeTensors フォーマットを使用します。Apple Silicon 搭載 Mac 用:MLX フォーマットを使用します。迷ったら、フォーマットを自動選択する Ollama から始めてください。
Gemma 4 のモデルファイルはどれくらい大きいですか?
フル精度のサイズ:E2B(約 4GB)、E4B(約 8GB)、26B MoE(約 52GB)、31B Dense(約 62GB)。Q4 量子化バージョンは約 4 分の 1 のサイズです。Ollama のデフォルトダウンロードは最適化された量子化を使用します。
ダウンロードに Hugging Face アカウントが必要ですか?
いいえ。Gemma 4 モデルは Apache 2.0 ライセンスで公開されており、アカウントなしでダウンロードできます。ただし、アカウントがあればより高速なダウンロードと Hugging Face CLI へのアクセスが可能です。
GGUF ファイルとは何ですか?
GGUF(GPT-Generated Unified Format)は、llama.cpp と Ollama での効率的なローカル推論のために設計されたバイナリフォーマットです。さまざまな量子化レベルをサポートし、精度を犠牲に小さいファイルサイズと低いメモリ使用量を実現できます。
中国から Gemma 4 をダウンロードできますか?
はい。ModelScope(魔搭社区)は中国国内で高速ダウンロードを提供する Gemma 4 モデルをミラーリングしています。また、Hugging Face ダウンロード用にミラーまたはプロキシを使用することもできます。
ダウンロードしてデプロイ
Gemma 4 のモデル重みを取得してデプロイを始めましょう。ステップバイステップのセットアップ手順については、デプロイガイドをご覧ください。