使用 Ollama 运行 Gemma 4
Ollama 是在本地运行 Gemma 4 最快捷、最简单的方式。只需一条命令,即可下载并开始与任何 Gemma 4 模型对话——无需 Python 环境、无需复杂配置、无需手动调整 GPU 设置。
Ollama 会自动检测你的硬件(CPU、GPU、内存)并优化模型配置以获得最佳性能。支持 macOS、Linux 和 Windows,并提供兼容 OpenAI 的 API 接口,方便集成到你的应用程序中。
第一步:安装 Ollama
macOS
从 ollama.com 下载或通过 Homebrew 安装:
# Homebrew
brew install ollama
# Or download from https://ollama.com/download/macLinux
一行命令安装:
curl -fsSL https://ollama.com/install.sh | shWindows
从 ollama.com 下载安装包或使用 winget:
# winget
winget install Ollama.Ollama
# Or download from https://ollama.com/download/windows验证安装:
ollama --version第二步:选择 Gemma 4 模型
所有 Gemma 4 变体都已收录在 Ollama 模型库中。根据你的硬件和需求选择:
超轻量,适合边缘设备和基础任务
质量与资源消耗的最佳平衡
MoE 架构——以小模型成本获得大模型质量
最高质量——旗舰稠密模型
第三步:运行 Gemma 4
启动交互式对话:
# Start interactive chat with Gemma 4 E4B
ollama run gemma4:e4b
# Or the flagship 31B model
ollama run gemma4:31b单次提问:
ollama run gemma4:e4b "Explain quantum computing in simple terms"多模态使用(配合图片):
# In the interactive chat, use /image to add images
ollama run gemma4:e4b
>>> /image photo.jpg What do you see in this image?使用 Ollama API
Ollama 在 localhost:11434 提供兼容 OpenAI 的 REST API,方便将 Gemma 4 集成到你的应用中:
对话补全:
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:e4b",
"messages": [
{"role": "user", "content": "Hello, Gemma 4!"}
]
}'文本生成:
curl http://localhost:11434/api/generate \
-d '{
"model": "gemma4:e4b",
"prompt": "Write a Python function to sort a list"
}'进阶配置
自定义 Modelfile
创建自定义 Modelfile 来调整模型参数,如温度、上下文长度和系统提示词:
FROM gemma4:e4b
PARAMETER temperature 0.7
PARAMETER num_ctx 32768
SYSTEM """
You are a helpful coding assistant. Always provide code examples.
"""GPU 配置
Ollama 会自动检测 GPU,你也可以手动控制 GPU 层数分配:
# Set number of GPU layers
OLLAMA_NUM_GPU=35 ollama run gemma4:31b
# CPU only mode
OLLAMA_NUM_GPU=0 ollama run gemma4:e4b上下文长度
增大默认上下文窗口以支持更长的对话:
ollama run gemma4:e4b --num-ctx 65536常见问题排查
模型下载速度慢
Ollama 从 CDN 下载模型。如果速度慢,检查网络连接或尝试使用代理。大模型(26B、31B)根据带宽可能需要 10-30 分钟。
内存不足错误
尝试更小的模型变体或量化版本。使用 'ollama run gemma4:e4b' 而非 31B 模型。在内存有限的系统上,运行前关闭其他应用程序。
推理速度慢
确保 Ollama 正在使用 GPU:运行 'ollama ps' 检查。Mac 上 Ollama 会自动使用 Metal GPU 加速。Linux/Windows 上确保 NVIDIA 或 AMD GPU 驱动已正确安装。
API 连接被拒绝
确保 Ollama 服务正在运行:'ollama serve'。默认 API 端点为 http://localhost:11434。如从其他机器访问,请检查防火墙设置。
Ollama + Gemma 4 常见问题
用 Ollama 运行哪个 Gemma 4 模型最好?
对大多数用户来说,gemma4:e4b 在质量和性能之间提供了最佳平衡。如果你有 16GB+ 显存的 GPU,gemma4:26b 能以高效的 MoE 推理提供接近旗舰级的质量。gemma4:31b 需要 24GB+ 显存但性能最强。
没有 GPU 能用 Ollama 运行 Gemma 4 吗?
可以。Ollama 支持所有 Gemma 4 变体的纯 CPU 推理。E2B 和 E4B 模型在 CPU 上运行速度尚可。大模型在没有 GPU 加速的情况下会明显变慢,但仍然可以使用。
如何在 Ollama 中更新 Gemma 4?
运行 'ollama pull gemma4:e4b'(或你偏好的变体)即可下载最新版本。如果你已有旧版本,Ollama 只会下载差异部分。
Ollama 的 Gemma 4 能和其他工具配合使用吗?
可以。Ollama 兼容 OpenAI 的 API 适用于大多数 AI 工具和框架,包括 LangChain、LlamaIndex、Open WebUI、Continue.dev 等。只需将它们指向 http://localhost:11434。
Ollama 支持 Gemma 4 的多模态功能吗?
支持。Ollama 支持 Gemma 4 的多模态能力。你可以在交互对话中使用 /image 命令传入图片,也可以通过 API 的 image 参数来使用。
Gemma 4 在 Ollama 中需要多少磁盘空间?
磁盘空间取决于模型变体:E2B (~1.5GB)、E4B (~3GB)、26B MoE (~15GB)、31B Dense (~18GB)。这些是默认量化的大小。模型存储在 macOS/Linux 的 ~/.ollama/models 目录。
ollamaGuide.faq.items.6.q
ollamaGuide.faq.items.6.a
ollamaGuide.faq.items.7.q
ollamaGuide.faq.items.7.a
ollamaGuide.faq.items.8.q
ollamaGuide.faq.items.8.a
ollamaGuide.faq.items.9.q
ollamaGuide.faq.items.9.a