Gemma 4

デプロイガイド

Gemma 4 を自分のハードウェアでローカルに実行しましょう。ワンクリックインストーラーから本番環境向けのサービングフレームワークまで、複数のデプロイオプションがあります。

Ollama

Gemma 4 をローカルで実行する最もシンプルな方法。1 つのコマンドで任意のバリエーションをダウンロードし、ハードウェアに合わせて自動最適化して起動します。

Ollama をインストール

curl -fsSL https://ollama.com/install.sh | sh

モデルを実行

# Gemma 4 31B (Dense) - 最强性能
ollama run gemma4:31b

# Gemma 4 26B (MoE) - 效率优先
ollama run gemma4:26b

# Gemma 4 E4B - 移动/轻量
ollama run gemma4:e4b

# Gemma 4 E2B - 边缘设备
ollama run gemma4:e2b

LM Studio

Gemma 4 モデルのダウンロード、設定、チャットが可能な視覚的インターフェースを備えたデスクトップアプリケーション。初心者に最適です。

  1. Download LM Studio from lmstudio.ai
  2. Search for "Gemma 4" in the model browser
  3. Select a quantized version matching your VRAM
  4. Click Download and wait for completion
  5. Start chatting in the built-in interface

vLLM

PagedAttention、連続バッチ処理、OpenAI 互換 API エンドポイントを備えた、本番環境向けの高スループットサービングエンジンです。

pip install vllm
vllm serve google/gemma-4-31b --max-model-len 32768

llama.cpp

GGUF 量子化モデルをサポートする最適化された C++ 推論エンジン。CPU または CPU/GPU 混在環境で Gemma 4 を実行できます。

# Build llama.cpp
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build && cmake --build build

# Run with GGUF model
./build/bin/llama-cli -m gemma-4-31b-Q4_K_M.gguf -p "Hello"

MLX

Apple 製の Apple Silicon ネイティブフレームワーク。M シリーズチップとユニファイドメモリ向けに最適化され、Mac で優れた性能を発揮します。

pip install mlx-lm
mlx_lm.generate --model google/gemma-4-31b --prompt "Hello"

VRAM 要件

各モデルバリエーションの量子化レベル別の VRAM 使用量の目安。

ModelBF16INT8INT4
E2B4 GB2.5 GB1.5 GB
E4B8 GB5 GB3 GB
26B MoE52 GB28 GB16 GB
31B Dense62 GB33 GB18 GB

モデルをダウンロード

公式ソースから Gemma 4 のモデル重みを取得しましょう。