在 Mac 上使用 MLX 运行 Gemma 4
MLX 是 Apple 专为 Apple Silicon (M1, M2, M3, M4) 打造的机器学习框架。它充分利用 Apple 芯片的统一内存架构,提供卓越的推理性能——对于能放入内存的模型,其表现往往优于基于 GPU 的方案。
Gemma 4 与 MLX 配合出色,让任何 Apple Silicon Mac 都能成为强大的 AI 工作站。本指南涵盖安装、运行各 Gemma 4 变体以及在 Mac 上优化性能。
为什么在 Mac 上用 MLX?
统一内存优势
Apple Silicon 的统一内存架构意味着没有 GPU 显存限制——整个系统内存都可用。64GB 内存的 Mac 可以加载和运行在 PC 上需要 1500 美元+ GPU 才能跑的模型。
原生优化
MLX 由 Apple 专门为 Apple Silicon 打造,使用 Metal 计算着色器和优化的内存访问模式。始终比通用 CPU 推理提供更高的每秒 token 数。
安装简单
用 pip 安装,下载模型,开始生成。无需 CUDA 驱动、Docker 容器或复杂的环境配置。
能效出众
Apple Silicon 的高能效意味着你可以用电池运行 Gemma 4 数小时。非常适合想要本地 AI 又不想一直插电的开发者。
安装
安装 mlx-lm,Apple 的 MLX 模型推理库:
pip install mlx-lm
# Verify installation
python -c "import mlx_lm; print('MLX-LM ready')运行 Gemma 4 模型
哪些 Gemma 4 模型能在哪些 Mac 上运行:
MacBook Air/Pro (8GB)
E2B, E4B (INT4)E4B INT4 量化可流畅运行。需为系统和应用留出空间。
MacBook Pro (16-18GB)
E2B, E4B, 26B MoE (INT4)26B MoE INT4 (~16GB) 勉强可以运行,空间较紧。E4B 是最佳选择。
MacBook Pro / Mac Studio (36-48GB)
所有模型 (INT4/INT8)26B INT8 运行舒适。31B INT4 绰绰有余。
Mac Studio / Mac Pro (64-192GB)
所有模型(全精度)可以 FP16 运行 31B。终极 Gemma 4 工作站。
MLX 命令
文本生成
mlx_lm.generate \
--model mlx-community/gemma-4-e4b-it-4bit \
--prompt "Explain quantum computing in simple terms" \
--max-tokens 512交互式对话
mlx_lm.chat --model mlx-community/gemma-4-e4b-it-4bit启动 API 服务器
mlx_lm.server \
--model mlx-community/gemma-4-e4b-it-4bit \
--port 8080
# Then use the OpenAI-compatible API:
curl http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "gemma-4-e4b", "messages": [{"role": "user", "content": "Hello!"}]}'量化模型
mlx_lm.convert \
--hf-path google/gemma-4-e4b-it \
--mlx-path ./gemma-4-e4b-4bit \
-q --q-bits 4性能优化技巧
关闭占内存的应用
Safari、Chrome 和 Docker 会占用大量内存。运行大模型前关闭它们,最大化 MLX 可用内存。
使用量化模型
32GB 及以下内存的机器务必使用 INT4 或 INT8 量化模型。质量差异很小,但内存节省非常可观。
调整上下文长度
更长的上下文窗口消耗更多内存。如果内存不足,减小最大上下文长度以释放内存给模型权重。
监控内存压力
使用活动监视器查看内存压力。如果变黄/变红,系统正在使用交换空间,推理会急剧变慢。考虑换用更小的模型或更高的量化。
MLX + Gemma 4 常见问题
Intel Mac 能用 MLX 运行 Gemma 4 吗?
MLX 需要 Apple Silicon (M1 或更新)。Intel Mac 请改用 Ollama 或 llama.cpp,它们支持在任何 Mac 上进行 CPU 推理。
Gemma 4 在 MLX 上有多快?
性能因模型和硬件而异:E4B 在 M3 Pro 上约 30-40 tok/s。26B MoE 在 M3 Max 上约 15-20 tok/s。31B 在 M2 Ultra 上约 10-15 tok/s。这些速度对交互使用来说非常优秀。
Mac 上用 MLX 还是 Ollama 更好?
两者在 Mac 上都很出色。Ollama 更简单(一条命令安装)且自带 API 服务器。MLX 提供更多控制、更好的内存效率和通常略快的推理速度。大多数用户先用 Ollama;追求极致性能再切换到 MLX。
MLX 模型从哪里获取?
MLX 格式的模型在 Hugging Face 上可用,通常由 mlx-community 组织上传。你也可以使用 mlx-lm 的转换工具将任何 SafeTensors 模型转换为 MLX 格式。
能用 MLX 微调 Gemma 4 吗?
可以。mlx-lm 支持在 Apple Silicon 上进行 LoRA 微调。这让你无需单独的 GPU 服务器,直接在 Mac 上定制 Gemma 4。
Mac 上运行 Gemma 4 需要多少内存?
E4B INT4 最低 8GB。E4B/26B INT4 舒适运行需 16GB。31B INT4 需 36-48GB。31B FP16 需 64GB+。macOS 本身占用 3-5GB,请据此规划。
mlxPage.faq.items.6.q
mlxPage.faq.items.6.a
mlxPage.faq.items.7.q
mlxPage.faq.items.7.a
mlxPage.faq.items.8.q
mlxPage.faq.items.8.a
mlxPage.faq.items.9.q
mlxPage.faq.items.9.a