Gemma 4

Gemma 4 硬件要求

Gemma 4 最大的优势之一是丰富的模型尺寸选择——从可在智能手机上运行的超轻量 E2B 到需要高端 GPU 的旗舰 31B。本指南详细列出每个变体的硬件要求,帮助你为自己的设备选择合适的模型。

硬件需求取决于三个因素:模型变体、量化级别和上下文长度。更低的量化精度和更短的上下文可以显著降低要求,让 Gemma 4 在各种硬件上都能运行。

速查表:最低配置要求

模型参数量显存 (FP16)显存 (INT8)显存 (INT4)磁盘空间
E2B2B4 GB2.5 GB1.5 GB~1.5–4 GB
E4B4B8 GB5 GB3 GB~3–8 GB
26B MoE26B52 GB28 GB16 GB~15–52 GB
31B Dense31B62 GB33 GB18 GB~18–62 GB

各模型详细要求

Gemma 4 E2B — 边缘与移动设备

VRAM

1.5–4 GB

RAM

最低 4 GB 系统内存

Disk

~1.5 GB(量化)/ ~4 GB(FP16)

GPU

无需独立 GPU。可在 CPU、移动 NPU 或集成 GPU 上运行。

Devices: 智能手机 (iOS/Android)、树莓派 5、平板电脑、边缘设备

E2B 专为资源受限的环境设计。在移动 NPU 和纯 CPU 配置上都能高效运行。非常适合对隐私和延迟有要求的端侧推理场景。

Gemma 4 E4B — 笔记本与桌面

VRAM

3–8 GB

RAM

最低 8 GB 系统内存

Disk

~3 GB(量化)/ ~8 GB(FP16)

GPU

任何 4GB+ 显存的 GPU,或纯 CPU(需足够内存)

Devices: 笔记本电脑、台式机、Apple Silicon Mac (M1+)、低配云实例

个人使用的最佳选择。MacBook Air M1 (8GB) 即可流畅运行。Windows/Linux 上 RTX 3060 (12GB) 绰绰有余。纯 CPU 推理可行但较慢。

Gemma 4 26B A4B (MoE) — 桌面 GPU

VRAM

16–52 GB

RAM

建议 32 GB 系统内存

Disk

~15 GB(量化)/ ~52 GB(FP16)

GPU

RTX 4090 (24GB)、RTX A5000、A100 (40/80GB) 或 Apple M2 Ultra+

Devices: 高端台式机、工作站、云 GPU 实例 (A100, L4, H100)

虽然总参数量达 260 亿,但 MoE 架构每次推理仅激活 40 亿参数。INT4 量化后显存占用约 16GB,RTX 4090 即可运行。FP16 全精度需要 48GB+ 显存或多 GPU 配置。

Gemma 4 31B Dense — 工作站与服务器

VRAM

18–62 GB

RAM

建议 64 GB 系统内存

Disk

~18 GB(量化)/ ~62 GB(FP16)

GPU

RTX 4090 (24GB, INT4)、A100 (40/80GB)、H100 或 Apple M2 Ultra+

Devices: 工作站、服务器、云 GPU 实例、多 GPU 配置

旗舰模型全精度需要强大的硬件,但 INT4 量化后单张 RTX 4090 即可运行。生产级大规模部署推荐 A100 或 H100 GPU。64GB+ 统一内存的 Apple Silicon Mac 可通过 MLX 运行。

推荐 GPU

该选哪个 GPU 来运行 Gemma 4?

NVIDIA RTX 4060 (8GB)

E2B, E4B

入门级选择。INT4 下可流畅运行 E4B。

NVIDIA RTX 4070 Ti Super (16GB)

E2B, E4B, 26B (INT4)

可运行 26B MoE 模型的 INT4 量化版本。

NVIDIA RTX 4090 (24GB)

所有模型(量化版)

最佳性价比。所有模型 INT4 均可运行,26B 支持 INT8。

NVIDIA A100 (40/80GB)

所有模型(全精度)

专业/云端 GPU。80GB 版本支持所有模型的 FP16 全精度。

Apple M3 Max (36/48GB)

E2B, E4B, 26B (INT4/INT8)

统一内存。配合 MLX 框架表现出色。

Apple M2/M3 Ultra (64-192GB)

所有模型(全精度)

超大统一内存,甚至可以 FP16 运行 31B。

上下文长度对内存的影响

更长的上下文窗口需要模型权重之外的额外显存。KV 缓存随上下文长度线性增长:

ContextE4B26B MoE31B Dense
8K+0.2 GB+0.5 GB+0.6 GB
32K+0.8 GB+2.0 GB+2.4 GB
128K+3.2 GB+8.0 GB+9.6 GB
256KN/A+16 GB+19.2 GB

以上为模型权重之外的近似额外显存需求。实际用量取决于 batch size 和具体实现。

硬件常见问题

没有 GPU 能运行 Gemma 4 吗?

可以。所有 Gemma 4 变体都支持通过 Ollama 或 llama.cpp 进行纯 CPU 推理。E2B 和 E4B 在现代 CPU 上速度尚可。大模型会明显变慢但仍可使用。确保有足够的系统内存——约为模型文件大小的 2 倍。

Gemma 4 需要多少显存?

INT4 量化下:E2B ~1.5GB,E4B ~3GB,26B MoE ~16GB,31B Dense ~18GB。FP16 全精度下:E2B ~4GB,E4B ~8GB,26B ~52GB,31B ~62GB。大多数用户应使用 INT4 或 INT8 量化。

RTX 4090 能运行 Gemma 4 31B 吗?

可以,INT4 量化下约占 18GB 显存。RTX 4090 的 24GB 足够。更高精度需要更多显存——考虑 A100 80GB 或多 GPU 配置。

Apple Silicon Mac 怎么样?

Apple Silicon Mac 的统一内存非常适合 Gemma 4。M1/M2 (16GB) 可流畅运行 E4B。M3 Max (36-48GB) 可运行 26B MoE。M2/M3 Ultra (64GB+) 可运行 31B。使用 MLX 或 Ollama 获得最佳性能。

量化会影响质量吗?

INT8 量化通常保留 98-99% 的质量。INT4 保留 93-95%。对于大多数实际场景,INT4 完全够用。只有需要精确复现的科研或评测任务才需要 FP16。

能跨多个 GPU 运行 Gemma 4 吗?

可以。vLLM、llama.cpp 等框架支持多 GPU 张量并行。这使你可以在 2 张 RTX 4090(共 48GB)上以更高精度运行 31B 模型。

requirementsPage.faq.items.6.q

requirementsPage.faq.items.6.a

requirementsPage.faq.items.7.q

requirementsPage.faq.items.7.a

requirementsPage.faq.items.8.q

requirementsPage.faq.items.8.a

requirementsPage.faq.items.9.q

requirementsPage.faq.items.9.a

准备好部署了吗?

了解了硬件要求后,开始在你的设备上部署 Gemma 4。