下载 Gemma 4 模型
Gemma 4 模型权重可从多个官方渠道免费下载。无论你需要用于研究的全精度权重、用于本地推理的量化 GGUF 文件,还是 Ollama 的预打包模型,本指南涵盖了所有下载选项。
所有 Gemma 4 模型均采用 Apache 2.0 许可证发布,你可以自由下载、使用、修改和再分发——包括商业用途。
官方下载渠道
Hugging Face
Gemma 4 模型权重的主要平台。提供所有变体的多种格式,包括 SafeTensors、GGUF 和 GPTQ 量化版本。支持 git 下载、Hugging Face CLI 和浏览器直接下载。
- • 所有模型变体和尺寸
- • 多种量化格式
- • Git LFS 和 CLI 下载
- • 社区贡献的量化版本
- • 附带文档的模型卡片
Kaggle
Google 的数据科学平台托管了官方 Gemma 4 模型权重。对于 Kaggle 用户来说非常便利,支持 Notebook 集成便于快速实验。
- • Google 官方分发
- • Notebook 集成
- • 版本追踪
- • 直接下载
- • downloadGuide.sources.kaggle.features.4
Ollama 模型库
针对 Ollama 本地推理优化的预打包 Gemma 4 模型。一条命令即可下载运行。模型会自动针对你的硬件进行量化和优化。
- • 一条命令安装
- • 自动适配硬件
- • 所有变体可用
- • 自动更新
- • downloadGuide.sources.ollama.features.4
魔搭社区 (ModelScope)
国内模型托管平台,为亚洲用户提供快速下载速度。镜像了官方 Gemma 4 模型,并提供完整的中文文档。
- • 国内高速下载
- • 中文文档
- • Git 下载
- • 社区模型
- • downloadGuide.sources.modelscope.features.4
模型格式指南
了解 Gemma 4 可用的不同模型文件格式:
SafeTensors (.safetensors)
Hugging Face 上的默认格式。安全、快速加载的张量格式,可防止代码执行漏洞。适用于 Hugging Face Transformers、vLLM 等 Python 框架。
研究、微调、Python 框架、vLLM 部署
GGUF (.gguf)
llama.cpp 和 Ollama 的标准格式。支持多种量化级别(Q4、Q5、Q8 等)以减小模型体积和内存需求。针对 CPU 和混合 CPU/GPU 推理优化。
本地推理、Ollama、llama.cpp、KoboldCpp、LM Studio
GPTQ
GPU 优化的量化格式,在显著降低显存需求的同时保持较高精度。通过 Hugging Face 上的社区贡献获取。
低显存 GPU 推理、生产部署
MLX 格式
Apple 原生机器学习格式,针对 Apple Silicon (M1/M2/M3/M4) 优化。充分利用统一内存架构实现高效推理。
Apple Silicon Mac、MLX 框架
量化指南
量化通过牺牲部分精度来减小模型体积和内存占用。以下是 Gemma 4 不同量化级别的对比:
| Format | Bits | Quality | Notes |
|---|---|---|---|
| BF16 / FP16(全精度) | 16 位 | 100% | 完整模型质量,无精度损失。需要最多的显存和磁盘空间。 |
| INT8 / Q8 | 8 位 | ~98-99% | 精度损失极小。显存需求减半。推荐用于大多数 GPU 部署。 |
| Q5_K_M | 5 位 | ~95-97% | 质量与体积的良好平衡。GGUF 格式本地推理的热门选择。 |
| INT4 / Q4_K_M | 4 位 | ~93-95% | 显著减小体积,大多数场景下质量可接受。让消费级硬件也能运行大模型。 |
命令行下载
Hugging Face CLI
安装 Hugging Face CLI 并直接下载模型:
pip install huggingface_hub
# Download a specific model
huggingface-cli download google/gemma-4-31b
# Download GGUF quantized version
huggingface-cli download google/gemma-4-31b-GGUF \
--include "gemma-4-31b-Q4_K_M.gguf"Git LFS
使用 Git Large File Storage 克隆模型仓库:
git lfs install
git clone https://huggingface.co/google/gemma-4-31bOllama CLI
直接拉取模型到 Ollama:
# Pull any variant
ollama pull gemma4:e4b
ollama pull gemma4:31b
ollama pull gemma4:26b下载常见问题
从哪里下载 Gemma 4 最好?
Hugging Face 是最全面的来源,提供所有格式和变体。如需一条命令搞定本地部署,使用 Ollama。国内用户推荐使用魔搭社区,下载速度更快。
应该下载什么格式?
如果用 Ollama 或 llama.cpp:下载 GGUF 文件。如果用 Python/vLLM:使用 SafeTensors 格式。如果是 Apple Silicon Mac:使用 MLX 格式。不确定的话,从 Ollama 开始,它会自动处理格式选择。
Gemma 4 模型文件有多大?
全精度大小:E2B (~4GB)、E4B (~8GB)、26B MoE (~52GB)、31B Dense (~62GB)。Q4 量化版本大约小 4 倍。Ollama 默认下载使用优化量化。
下载需要 Hugging Face 账号吗?
不需要。Gemma 4 模型在 Apache 2.0 许可证下公开访问。无需账号即可下载,但拥有账号可以享受更快的下载速度和 CLI 工具。
GGUF 文件是什么?
GGUF (GPT-Generated Unified Format) 是专为 llama.cpp 和 Ollama 高效本地推理设计的二进制格式。支持多种量化级别,让你在精度和文件体积/内存占用之间灵活权衡。
在国内怎么下载 Gemma 4?
推荐使用魔搭社区(ModelScope),国内下载速度快。也可以使用 Hugging Face 的镜像站或代理进行下载。
downloadGuide.faq.items.6.q
downloadGuide.faq.items.6.a
downloadGuide.faq.items.7.q
downloadGuide.faq.items.7.a
downloadGuide.faq.items.8.q
downloadGuide.faq.items.8.a
downloadGuide.faq.items.9.q
downloadGuide.faq.items.9.a