Gemma 4

在 Mac 上使用 MLX 运行 Gemma 4

MLX 是 Apple 专为 Apple Silicon (M1, M2, M3, M4) 打造的机器学习框架。它充分利用 Apple 芯片的统一内存架构,提供卓越的推理性能——对于能放入内存的模型,其表现往往优于基于 GPU 的方案。

Gemma 4 与 MLX 配合出色,让任何 Apple Silicon Mac 都能成为强大的 AI 工作站。本指南涵盖安装、运行各 Gemma 4 变体以及在 Mac 上优化性能。

为什么在 Mac 上用 MLX?

统一内存优势

Apple Silicon 的统一内存架构意味着没有 GPU 显存限制——整个系统内存都可用。64GB 内存的 Mac 可以加载和运行在 PC 上需要 1500 美元+ GPU 才能跑的模型。

原生优化

MLX 由 Apple 专门为 Apple Silicon 打造,使用 Metal 计算着色器和优化的内存访问模式。始终比通用 CPU 推理提供更高的每秒 token 数。

安装简单

用 pip 安装,下载模型,开始生成。无需 CUDA 驱动、Docker 容器或复杂的环境配置。

能效出众

Apple Silicon 的高能效意味着你可以用电池运行 Gemma 4 数小时。非常适合想要本地 AI 又不想一直插电的开发者。

安装

安装 mlx-lm,Apple 的 MLX 模型推理库:

pip install mlx-lm

# Verify installation
python -c "import mlx_lm; print('MLX-LM ready')

运行 Gemma 4 模型

哪些 Gemma 4 模型能在哪些 Mac 上运行:

MacBook Air/Pro (8GB)

E2B, E4B (INT4)

E4B INT4 量化可流畅运行。需为系统和应用留出空间。

MacBook Pro (16-18GB)

E2B, E4B, 26B MoE (INT4)

26B MoE INT4 (~16GB) 勉强可以运行,空间较紧。E4B 是最佳选择。

MacBook Pro / Mac Studio (36-48GB)

所有模型 (INT4/INT8)

26B INT8 运行舒适。31B INT4 绰绰有余。

Mac Studio / Mac Pro (64-192GB)

所有模型(全精度)

可以 FP16 运行 31B。终极 Gemma 4 工作站。

MLX 命令

文本生成

mlx_lm.generate \
  --model mlx-community/gemma-4-e4b-it-4bit \
  --prompt "Explain quantum computing in simple terms" \
  --max-tokens 512

交互式对话

mlx_lm.chat --model mlx-community/gemma-4-e4b-it-4bit

启动 API 服务器

mlx_lm.server \
  --model mlx-community/gemma-4-e4b-it-4bit \
  --port 8080

# Then use the OpenAI-compatible API:
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "gemma-4-e4b", "messages": [{"role": "user", "content": "Hello!"}]}'

量化模型

mlx_lm.convert \
  --hf-path google/gemma-4-e4b-it \
  --mlx-path ./gemma-4-e4b-4bit \
  -q --q-bits 4

性能优化技巧

关闭占内存的应用

Safari、Chrome 和 Docker 会占用大量内存。运行大模型前关闭它们,最大化 MLX 可用内存。

使用量化模型

32GB 及以下内存的机器务必使用 INT4 或 INT8 量化模型。质量差异很小,但内存节省非常可观。

调整上下文长度

更长的上下文窗口消耗更多内存。如果内存不足,减小最大上下文长度以释放内存给模型权重。

监控内存压力

使用活动监视器查看内存压力。如果变黄/变红,系统正在使用交换空间,推理会急剧变慢。考虑换用更小的模型或更高的量化。

MLX + Gemma 4 常见问题

Intel Mac 能用 MLX 运行 Gemma 4 吗?

MLX 需要 Apple Silicon (M1 或更新)。Intel Mac 请改用 Ollama 或 llama.cpp,它们支持在任何 Mac 上进行 CPU 推理。

Gemma 4 在 MLX 上有多快?

性能因模型和硬件而异:E4B 在 M3 Pro 上约 30-40 tok/s。26B MoE 在 M3 Max 上约 15-20 tok/s。31B 在 M2 Ultra 上约 10-15 tok/s。这些速度对交互使用来说非常优秀。

Mac 上用 MLX 还是 Ollama 更好?

两者在 Mac 上都很出色。Ollama 更简单(一条命令安装)且自带 API 服务器。MLX 提供更多控制、更好的内存效率和通常略快的推理速度。大多数用户先用 Ollama;追求极致性能再切换到 MLX。

MLX 模型从哪里获取?

MLX 格式的模型在 Hugging Face 上可用,通常由 mlx-community 组织上传。你也可以使用 mlx-lm 的转换工具将任何 SafeTensors 模型转换为 MLX 格式。

能用 MLX 微调 Gemma 4 吗?

可以。mlx-lm 支持在 Apple Silicon 上进行 LoRA 微调。这让你无需单独的 GPU 服务器,直接在 Mac 上定制 Gemma 4。

Mac 上运行 Gemma 4 需要多少内存?

E4B INT4 最低 8GB。E4B/26B INT4 舒适运行需 16GB。31B INT4 需 36-48GB。31B FP16 需 64GB+。macOS 本身占用 3-5GB,请据此规划。

mlxPage.faq.items.6.q

mlxPage.faq.items.6.a

mlxPage.faq.items.7.q

mlxPage.faq.items.7.a

mlxPage.faq.items.8.q

mlxPage.faq.items.8.a

mlxPage.faq.items.9.q

mlxPage.faq.items.9.a

在你的 Mac 上运行 Gemma 4

你的 Mac 已经准备好了。安装 MLX,下载 Gemma 4,开始体验。