使用 Ollama 运行 Gemma 4

Ollama 是在本地运行 Gemma 4 最快捷、最简单的方式。只需一条命令，即可下载并开始与任何 Gemma 4 模型对话——无需 Python 环境、无需复杂配置、无需手动调整 GPU 设置。

Ollama 会自动检测你的硬件（CPU、GPU、内存）并优化模型配置以获得最佳性能。支持 macOS、Linux 和 Windows，并提供兼容 OpenAI 的 API 接口，方便集成到你的应用程序中。

第一步：安装 Ollama

macOS

从 ollama.com 下载或通过 Homebrew 安装：

# Homebrew
brew install ollama

# Or download from https://ollama.com/download/mac

Linux

一行命令安装：

curl -fsSL https://ollama.com/install.sh | sh

Windows

从 ollama.com 下载安装包或使用 winget：

# winget
winget install Ollama.Ollama

# Or download from https://ollama.com/download/windows

验证安装：

ollama --version

第二步：选择 Gemma 4 模型

所有 Gemma 4 变体都已收录在 Ollama 模型库中。根据你的硬件和需求选择：

gemma4:e2b

~1.5 GBVRAM: 2 GB

超轻量，适合边缘设备和基础任务

gemma4:e4b

~3 GBVRAM: 4 GB

质量与资源消耗的最佳平衡

gemma4:26b

~15 GBVRAM: 16 GB

MoE 架构——以小模型成本获得大模型质量

gemma4:31b

~18 GBVRAM: 24 GB

最高质量——旗舰稠密模型

第三步：运行 Gemma 4

启动交互式对话：

# Start interactive chat with Gemma 4 E4B
ollama run gemma4:e4b

# Or the flagship 31B model
ollama run gemma4:31b

单次提问：

ollama run gemma4:e4b "Explain quantum computing in simple terms"

多模态使用（配合图片）：

# In the interactive chat, use /image to add images
ollama run gemma4:e4b
>>> /image photo.jpg What do you see in this image?

使用 Ollama API

Ollama 在 localhost:11434 提供兼容 OpenAI 的 REST API，方便将 Gemma 4 集成到你的应用中：

对话补全：

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:e4b",
    "messages": [
      {"role": "user", "content": "Hello, Gemma 4!"}
    ]
  }'

文本生成：

curl http://localhost:11434/api/generate \
  -d '{
    "model": "gemma4:e4b",
    "prompt": "Write a Python function to sort a list"
  }'

进阶配置

自定义 Modelfile

创建自定义 Modelfile 来调整模型参数，如温度、上下文长度和系统提示词：

FROM gemma4:e4b

PARAMETER temperature 0.7
PARAMETER num_ctx 32768

SYSTEM """
You are a helpful coding assistant. Always provide code examples.
"""

GPU 配置

Ollama 会自动检测 GPU，你也可以手动控制 GPU 层数分配：

# Set number of GPU layers
OLLAMA_NUM_GPU=35 ollama run gemma4:31b

# CPU only mode
OLLAMA_NUM_GPU=0 ollama run gemma4:e4b

上下文长度

增大默认上下文窗口以支持更长的对话：

ollama run gemma4:e4b --num-ctx 65536

常见问题排查

模型下载速度慢

Ollama 从 CDN 下载模型。如果速度慢，检查网络连接或尝试使用代理。大模型（26B、31B）根据带宽可能需要 10-30 分钟。

内存不足错误

尝试更小的模型变体或量化版本。使用 'ollama run gemma4:e4b' 而非 31B 模型。在内存有限的系统上，运行前关闭其他应用程序。

推理速度慢

确保 Ollama 正在使用 GPU：运行 'ollama ps' 检查。Mac 上 Ollama 会自动使用 Metal GPU 加速。Linux/Windows 上确保 NVIDIA 或 AMD GPU 驱动已正确安装。

API 连接被拒绝

确保 Ollama 服务正在运行：'ollama serve'。默认 API 端点为 http://localhost:11434。如从其他机器访问，请检查防火墙设置。

Ollama + Gemma 4 常见问题

用 Ollama 运行哪个 Gemma 4 模型最好？

对大多数用户来说，gemma4:e4b 在质量和性能之间提供了最佳平衡。如果你有 16GB+ 显存的 GPU，gemma4:26b 能以高效的 MoE 推理提供接近旗舰级的质量。gemma4:31b 需要 24GB+ 显存但性能最强。

没有 GPU 能用 Ollama 运行 Gemma 4 吗？

可以。Ollama 支持所有 Gemma 4 变体的纯 CPU 推理。E2B 和 E4B 模型在 CPU 上运行速度尚可。大模型在没有 GPU 加速的情况下会明显变慢，但仍然可以使用。

如何在 Ollama 中更新 Gemma 4？

运行 'ollama pull gemma4:e4b'（或你偏好的变体）即可下载最新版本。如果你已有旧版本，Ollama 只会下载差异部分。

Ollama 的 Gemma 4 能和其他工具配合使用吗？

可以。Ollama 兼容 OpenAI 的 API 适用于大多数 AI 工具和框架，包括 LangChain、LlamaIndex、Open WebUI、Continue.dev 等。只需将它们指向 http://localhost:11434。

Ollama 支持 Gemma 4 的多模态功能吗？

支持。Ollama 支持 Gemma 4 的多模态能力。你可以在交互对话中使用 /image 命令传入图片，也可以通过 API 的 image 参数来使用。

Gemma 4 在 Ollama 中需要多少磁盘空间？

磁盘空间取决于模型变体：E2B (~1.5GB)、E4B (~3GB)、26B MoE (~15GB)、31B Dense (~18GB)。这些是默认量化的大小。模型存储在 macOS/Linux 的 ~/.ollama/models 目录。

ollamaGuide.faq.items.6.q

ollamaGuide.faq.items.6.a

ollamaGuide.faq.items.7.q

ollamaGuide.faq.items.7.a

ollamaGuide.faq.items.8.q

ollamaGuide.faq.items.8.a

ollamaGuide.faq.items.9.q

ollamaGuide.faq.items.9.a

准备好运行 Gemma 4 了吗？

安装 Ollama，几分钟内即可开始与 Gemma 4 对话。或探索其他部署方式。

安装 Ollama 其他部署方式先在线试用