Gemma 4

从 Hugging Face 下载 Gemma 4 GGUF 与模型权重

Gemma 4 模型权重可从 Hugging Face、Kaggle、Ollama 和魔搭社区免费下载。本指南涵盖全部变体——E2B、E4B、26B MoE 和 31B Dense——以及全部格式:全精度 SafeTensors、量化 GGUF(Q4 / Q5 / Q8)、GPTQ 和 MLX,并附直接下载链接和文件大小。

所有 Gemma 4 模型均采用 Apache 2.0 许可证发布,你可以自由下载、使用、修改和再分发——包括商业用途。

Gemma 4 GGUF 在 Hugging Face 的下载尺寸

数据读取自 unsloth 在 Hugging Face 的官方 Gemma 4 GGUF 仓库——Gemma 4 GGUF 下载量最高的社区发布者。点击任意仓库路径查看其文件列表。

模型总参数Q4_K_MQ5_K_MQ8_0BF16Hugging Face 仓库
Gemma 4 E2B-it5B3.11 GB3.36 GB5.05 GB9.31 GBunsloth/gemma-4-E2B-it-GGUF
Gemma 4 E4B-it8B4.98 GB5.48 GB8.19 GB15.1 GBunsloth/gemma-4-E4B-it-GGUF
Gemma 4 26B-A4B-it27B(MoE,激活 4B)16.9 GB21.2 GB26.9 GBunsloth/gemma-4-26B-A4B-it-GGUF
Gemma 4 31B-it33B(Dense)18.3 GB21.7 GB32.6 GBunsloth/gemma-4-31B-it-GGUF

尺寸于 2026-04-21 从 unsloth 的 Hugging Face 仓库核实。如需全精度 SafeTensors,请使用官方 google/gemma-4-E2B、-E4B、-26B-A4B、-31B 仓库(指令微调版加 -it 后缀)。26B-A4B 的 Q4 / Q5 文件由 unsloth 发布,属 Unsloth Dynamic(UD)版本,尺寸位于 Q4_K_M / Q5_K_M 同级。

模型格式指南

了解 Gemma 4 可用的不同模型文件格式:

SafeTensors (.safetensors)

Hugging Face 上的默认格式。安全、快速加载的张量格式,可防止代码执行漏洞。适用于 Hugging Face Transformers、vLLM 等 Python 框架。

研究、微调、Python 框架、vLLM 部署

GGUF (.gguf)

llama.cpp 和 Ollama 的标准格式。支持多种量化级别(Q4、Q5、Q8 等)以减小模型体积和内存需求。针对 CPU 和混合 CPU/GPU 推理优化。

本地推理、Ollama、llama.cpp、KoboldCpp、LM Studio

GPTQ

GPU 优化的量化格式,在显著降低显存需求的同时保持较高精度。通过 Hugging Face 上的社区贡献获取。

低显存 GPU 推理、生产部署

MLX 格式

Apple 原生机器学习格式,针对 Apple Silicon (M1/M2/M3/M4) 优化。充分利用统一内存架构实现高效推理。

Apple Silicon Mac、MLX 框架

量化指南

量化通过牺牲部分精度来减小模型体积和内存占用。以下是 Gemma 4 不同量化级别的对比:

FormatBitsQualityNotes
BF16 / FP16(全精度)16 位100%完整模型质量,无精度损失。需要最多的显存和磁盘空间。
INT8 / Q88 位~98-99%精度损失极小。显存需求减半。推荐用于大多数 GPU 部署。
Q5_K_M5 位~95-97%质量与体积的良好平衡。GGUF 格式本地推理的热门选择。
INT4 / Q4_K_M4 位~93-95%显著减小体积,大多数场景下质量可接受。让消费级硬件也能运行大模型。

命令行下载

Hugging Face CLI

安装 Hugging Face CLI 并直接下载模型:

pip install huggingface_hub

# Full-precision SafeTensors (official Google repo)
huggingface-cli download google/gemma-4-31B-it

# GGUF quantized (community, unsloth — most downloaded)
huggingface-cli download unsloth/gemma-4-31B-it-GGUF \
  --include "gemma-4-31B-it-Q4_K_M.gguf"

Git LFS

使用 Git Large File Storage 克隆模型仓库:

git lfs install
git clone https://huggingface.co/google/gemma-4-31B-it

Ollama CLI

直接拉取模型到 Ollama:

# Pull any variant
ollama pull gemma4:e2b
ollama pull gemma4:e4b
ollama pull gemma4:26b
ollama pull gemma4:31b

下载常见问题

从哪里下载 Gemma 4 最好?

Hugging Face 是最全面的来源,提供所有格式和变体。如需一条命令搞定本地部署,使用 Ollama。国内用户推荐使用魔搭社区,下载速度更快。

应该下载什么格式?

如果用 Ollama 或 llama.cpp:下载 GGUF 文件。如果用 Python/vLLM:使用 SafeTensors 格式。如果是 Apple Silicon Mac:使用 MLX 格式。不确定的话,从 Ollama 开始,它会自动处理格式选择。

Gemma 4 模型文件有多大?

全精度大小:E2B (~4GB)、E4B (~8GB)、26B MoE (~52GB)、31B Dense (~62GB)。Q4 量化版本大约小 4 倍。Ollama 默认下载使用优化量化。

下载需要 Hugging Face 账号吗?

不需要。Gemma 4 模型在 Apache 2.0 许可证下公开访问。无需账号即可下载,但拥有账号可以享受更快的下载速度和 CLI 工具。

GGUF 文件是什么?

GGUF (GPT-Generated Unified Format) 是专为 llama.cpp 和 Ollama 高效本地推理设计的二进制格式。支持多种量化级别,让你在精度和文件体积/内存占用之间灵活权衡。

在国内怎么下载 Gemma 4?

推荐使用魔搭社区(ModelScope),国内下载速度快。也可以使用 Hugging Face 的镜像站或代理进行下载。

下载并部署

获取 Gemma 4 模型权重并开始部署。查看我们的部署指南获取详细的安装步骤。