デプロイガイド

Gemma 4 を自分のハードウェアでローカルに実行しましょう。ワンクリックインストーラーから本番環境向けのサービングフレームワークまで、複数のデプロイオプションがあります。

Ollama

Gemma 4 をローカルで実行する最もシンプルな方法。1 つのコマンドで任意のバリエーションをダウンロードし、ハードウェアに合わせて自動最適化して起動します。

Ollama をインストール

curl -fsSL https://ollama.com/install.sh | sh

モデルを実行

# Gemma 4 31B (Dense) - 最强性能
ollama run gemma4:31b

# Gemma 4 26B (MoE) - 效率优先
ollama run gemma4:26b

# Gemma 4 E4B - 移动/轻量
ollama run gemma4:e4b

# Gemma 4 E2B - 边缘设备
ollama run gemma4:e2b

LM Studio

Gemma 4 モデルのダウンロード、設定、チャットが可能な視覚的インターフェースを備えたデスクトップアプリケーション。初心者に最適です。

Download LM Studio from lmstudio.ai
Search for "Gemma 4" in the model browser
Select a quantized version matching your VRAM
Click Download and wait for completion
Start chatting in the built-in interface

vLLM

PagedAttention、連続バッチ処理、OpenAI 互換 API エンドポイントを備えた、本番環境向けの高スループットサービングエンジンです。

pip install vllm
vllm serve google/gemma-4-31b --max-model-len 32768

llama.cpp

GGUF 量子化モデルをサポートする最適化された C++ 推論エンジン。CPU または CPU/GPU 混在環境で Gemma 4 を実行できます。

# Build llama.cpp
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build && cmake --build build

# Run with GGUF model
./build/bin/llama-cli -m gemma-4-31b-Q4_K_M.gguf -p "Hello"

MLX

Apple 製の Apple Silicon ネイティブフレームワーク。M シリーズチップとユニファイドメモリ向けに最適化され、Mac で優れた性能を発揮します。

pip install mlx-lm
mlx_lm.generate --model google/gemma-4-31b --prompt "Hello"

VRAM 要件

各モデルバリエーションの量子化レベル別の VRAM 使用量の目安。

Model	BF16	INT8	INT4
E2B	4 GB	2.5 GB	1.5 GB
E4B	8 GB	5 GB	3 GB
26B MoE	52 GB	28 GB	16 GB
31B Dense	62 GB	33 GB	18 GB

デプロイガイド

Ollama

Ollama をインストール

モデルを実行

LM Studio

vLLM

llama.cpp

MLX

VRAM 要件

モデルをダウンロード

Hugging Face

Kaggle

Ollama

ModelScope