本地部署

Gemma 4 支持多种主流推理框架，从一键安装到高性能生产部署均有覆盖，轻松将模型运行在你自己的设备上。

Ollama

最简单的本地部署方式，一行命令即可启动 Gemma 4。支持 macOS、Linux 和 Windows，自动管理模型下载和运行环境。

安装 Ollama

curl -fsSL https://ollama.com/install.sh | sh

运行 Gemma 4

# Gemma 4 31B (Dense) - 最强性能
ollama run gemma4:31b

# Gemma 4 26B (MoE) - 效率优先
ollama run gemma4:26b

# Gemma 4 E4B - 移动/轻量
ollama run gemma4:e4b

# Gemma 4 E2B - 边缘设备
ollama run gemma4:e2b

LM Studio

图形化桌面应用，提供友好的模型管理界面和聊天窗口。适合不熟悉命令行的用户，支持一键下载和切换各版本 Gemma 4 模型。

Download LM Studio from lmstudio.ai
Search for "Gemma 4" in the model browser
Select a quantized version matching your VRAM
Click Download and wait for completion
Start chatting in the built-in interface

vLLM

高性能推理引擎，支持 PagedAttention、连续批处理等先进技术。适合生产环境部署，提供兼容 OpenAI 的 API 接口，轻松替换已有服务。

pip install vllm
vllm serve google/gemma-4-31b --max-model-len 32768

llama.cpp

纯 C/C++ 推理方案，无需 GPU 即可运行。支持 GGUF 量化格式，在 CPU 上也能获得不错的推理速度，是资源受限环境的绝佳选择。

# Build llama.cpp
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build && cmake --build build

# Run with GGUF model
./build/bin/llama-cli -m gemma-4-31b-Q4_K_M.gguf -p "Hello"

MLX

Apple 官方机器学习框架，专为 Apple Silicon 芯片深度优化。在 Mac 上可充分发挥统一内存架构的优势，提供极佳的推理性能。

pip install mlx-lm
mlx_lm.generate --model google/gemma-4-31b --prompt "Hello"

显存需求参考

不同模型在各量化精度下的显存占用估算，帮助你选择适合自己硬件的配置方案。

Model	BF16	INT8	INT4
E2B	4 GB	2.5 GB	1.5 GB
E4B	8 GB	5 GB	3 GB
26B MoE	52 GB	28 GB	16 GB
31B Dense	62 GB	33 GB	18 GB

模型下载

从以下平台获取 Gemma 4 模型权重，选择最适合你的下载渠道。

本地部署

Ollama

安装 Ollama

运行 Gemma 4

LM Studio

vLLM

llama.cpp

MLX

显存需求参考

模型下载

Hugging Face

Kaggle

Ollama

ModelScope