下载 Gemma 4 模型

Gemma 4 模型权重可从多个官方渠道免费下载。无论你需要用于研究的全精度权重、用于本地推理的量化 GGUF 文件，还是 Ollama 的预打包模型，本指南涵盖了所有下载选项。

所有 Gemma 4 模型均采用 Apache 2.0 许可证发布，你可以自由下载、使用、修改和再分发——包括商业用途。

官方下载渠道

Hugging Face

Gemma 4 模型权重的主要平台。提供所有变体的多种格式，包括 SafeTensors、GGUF 和 GPTQ 量化版本。支持 git 下载、Hugging Face CLI 和浏览器直接下载。

• 所有模型变体和尺寸
• 多种量化格式
• Git LFS 和 CLI 下载
• 社区贡献的量化版本
• 附带文档的模型卡片

Kaggle

Google 的数据科学平台托管了官方 Gemma 4 模型权重。对于 Kaggle 用户来说非常便利，支持 Notebook 集成便于快速实验。

• Google 官方分发
• Notebook 集成
• 版本追踪
• 直接下载
• downloadGuide.sources.kaggle.features.4

Ollama 模型库

针对 Ollama 本地推理优化的预打包 Gemma 4 模型。一条命令即可下载运行。模型会自动针对你的硬件进行量化和优化。

• 一条命令安装
• 自动适配硬件
• 所有变体可用
• 自动更新
• downloadGuide.sources.ollama.features.4

魔搭社区 (ModelScope)

国内模型托管平台，为亚洲用户提供快速下载速度。镜像了官方 Gemma 4 模型，并提供完整的中文文档。

• 国内高速下载
• 中文文档
• Git 下载
• 社区模型
• downloadGuide.sources.modelscope.features.4

模型格式指南

了解 Gemma 4 可用的不同模型文件格式：

SafeTensors (.safetensors)

Hugging Face 上的默认格式。安全、快速加载的张量格式，可防止代码执行漏洞。适用于 Hugging Face Transformers、vLLM 等 Python 框架。

研究、微调、Python 框架、vLLM 部署

GGUF (.gguf)

llama.cpp 和 Ollama 的标准格式。支持多种量化级别（Q4、Q5、Q8 等）以减小模型体积和内存需求。针对 CPU 和混合 CPU/GPU 推理优化。

本地推理、Ollama、llama.cpp、KoboldCpp、LM Studio

GPTQ

GPU 优化的量化格式，在显著降低显存需求的同时保持较高精度。通过 Hugging Face 上的社区贡献获取。

低显存 GPU 推理、生产部署

MLX 格式

Apple 原生机器学习格式，针对 Apple Silicon (M1/M2/M3/M4) 优化。充分利用统一内存架构实现高效推理。

Apple Silicon Mac、MLX 框架

量化指南

量化通过牺牲部分精度来减小模型体积和内存占用。以下是 Gemma 4 不同量化级别的对比：

Format	Bits	Quality	Notes
BF16 / FP16（全精度）	16 位	100%	完整模型质量，无精度损失。需要最多的显存和磁盘空间。
INT8 / Q8	8 位	~98-99%	精度损失极小。显存需求减半。推荐用于大多数 GPU 部署。
Q5_K_M	5 位	~95-97%	质量与体积的良好平衡。GGUF 格式本地推理的热门选择。
INT4 / Q4_K_M	4 位	~93-95%	显著减小体积，大多数场景下质量可接受。让消费级硬件也能运行大模型。

命令行下载

Hugging Face CLI

安装 Hugging Face CLI 并直接下载模型：

pip install huggingface_hub

# Download a specific model
huggingface-cli download google/gemma-4-31b

# Download GGUF quantized version
huggingface-cli download google/gemma-4-31b-GGUF \
  --include "gemma-4-31b-Q4_K_M.gguf"

Git LFS

使用 Git Large File Storage 克隆模型仓库：

git lfs install
git clone https://huggingface.co/google/gemma-4-31b

Ollama CLI

直接拉取模型到 Ollama：

# Pull any variant
ollama pull gemma4:e4b
ollama pull gemma4:31b
ollama pull gemma4:26b

下载常见问题

从哪里下载 Gemma 4 最好？

Hugging Face 是最全面的来源，提供所有格式和变体。如需一条命令搞定本地部署，使用 Ollama。国内用户推荐使用魔搭社区，下载速度更快。

应该下载什么格式？

如果用 Ollama 或 llama.cpp：下载 GGUF 文件。如果用 Python/vLLM：使用 SafeTensors 格式。如果是 Apple Silicon Mac：使用 MLX 格式。不确定的话，从 Ollama 开始，它会自动处理格式选择。

Gemma 4 模型文件有多大？

全精度大小：E2B (~4GB)、E4B (~8GB)、26B MoE (~52GB)、31B Dense (~62GB)。Q4 量化版本大约小 4 倍。Ollama 默认下载使用优化量化。

下载需要 Hugging Face 账号吗？

不需要。Gemma 4 模型在 Apache 2.0 许可证下公开访问。无需账号即可下载，但拥有账号可以享受更快的下载速度和 CLI 工具。

GGUF 文件是什么？

GGUF (GPT-Generated Unified Format) 是专为 llama.cpp 和 Ollama 高效本地推理设计的二进制格式。支持多种量化级别，让你在精度和文件体积/内存占用之间灵活权衡。

在国内怎么下载 Gemma 4？

推荐使用魔搭社区（ModelScope），国内下载速度快。也可以使用 Hugging Face 的镜像站或代理进行下载。

downloadGuide.faq.items.6.q

downloadGuide.faq.items.6.a

downloadGuide.faq.items.7.q

downloadGuide.faq.items.7.a

downloadGuide.faq.items.8.q

downloadGuide.faq.items.8.a

downloadGuide.faq.items.9.q

downloadGuide.faq.items.9.a

下载并部署

获取 Gemma 4 模型权重并开始部署。查看我们的部署指南获取详细的安装步骤。

部署指南模型对比先在线试用