使用 KoboldCpp 运行 Gemma 4

KoboldCpp 是一个基于 llama.cpp 的用户友好跨平台推理引擎，自带网页界面。它是本地运行 Gemma 4 GGUF 模型最简便的方式之一——在创意写作、角色扮演和互动小说社区中尤为流行。

与命令行工具不同，KoboldCpp 提供图形化启动器和浏览器聊天界面。支持 CPU、CUDA (NVIDIA)、ROCm (AMD)、Vulkan 和 Metal (Apple) 加速，几乎兼容所有硬件。

第一步：下载 KoboldCpp

从 GitHub 获取最新版本：

koboldcppPage.install.windows.title

koboldcppPage.install.windows.desc

koboldcppPage.install.mac.title

koboldcppPage.install.mac.desc

koboldcppPage.install.linux.title

koboldcppPage.install.linux.desc

第二步：获取 Gemma 4 GGUF 文件

koboldcppPage.download.subtitle

koboldcppPage.download.items.0.name

koboldcppPage.download.items.0.size

koboldcppPage.download.items.0.desc

koboldcppPage.download.items.1.name

koboldcppPage.download.items.1.size

koboldcppPage.download.items.1.desc

koboldcppPage.download.items.2.name

koboldcppPage.download.items.2.size

koboldcppPage.download.items.2.desc

koboldcppPage.download.items.3.name

koboldcppPage.download.items.3.size

koboldcppPage.download.items.3.desc

第三步：启动 KoboldCpp

图形界面启动

双击 KoboldCpp 打开启动器。选择 GGUF 文件，配置 GPU 层数，点击启动。

命令行启动

也可以从终端启动，获得更多控制：

koboldcpp --model gemma-4-e4b-it-Q4_K_M.gguf --gpulayers 33 --contextsize 4096

API 集成

KoboldCpp 同时提供 Kobold API 和兼容 OpenAI 的 API。可与 SillyTavern、Agnaistic 或任何兼容的前端配合使用：

koboldcppPage.api.generate.title

curl http://localhost:5001/api/v1/generate \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "Write a Python function to sort a list",
    "max_length": 200,
    "temperature": 0.7
  }'

koboldcppPage.api.check.title

curl http://localhost:5001/api/v1/model

KoboldCpp + Gemma 4 常见问题

KoboldCpp 是什么？

KoboldCpp 是一个开源的跨平台推理引擎，自带网页界面。基于 llama.cpp，支持 GGUF 模型。在创意写作、角色扮演和本地 AI 聊天领域很受欢迎。

哪个 Gemma 4 模型最适合 KoboldCpp？

对大多数用户来说，gemma-4-e4b-it-Q4_K_M.gguf (~3GB) 提供最佳平衡。如果你有 24GB+ 显存的 GPU，31B Q4 模型可提供旗舰级质量。

KoboldCpp 能和 SillyTavern 一起用吗？

可以。KoboldCpp 是 SillyTavern 最受欢迎的后端之一。通过 localhost:5001 的 Kobold API 或兼容 OpenAI 的端点连接。

KoboldCpp 和 Ollama 哪个好？

Ollama 更适合快速部署和 API 优先的使用方式。KoboldCpp 凭借内置界面、高级采样设置和与 SillyTavern 等聊天前端的兼容性见长。根据你的工作流程选择。

KoboldCpp 支持 Gemma 4 多模态吗？

KoboldCpp 主要专注于文本生成。如需多模态功能（图像/视频/音频输入），请改用 Ollama 或 vLLM。

怎么加快推理速度？

最大化 GPU 层卸载。使用量化模型 (Q4_K_M 或 Q5_K_M)。在启动器中启用 CUDA/Metal/Vulkan。如不需要则减小上下文长度。

koboldcppPage.faq.items.6.q

koboldcppPage.faq.items.6.a

koboldcppPage.faq.items.7.q

koboldcppPage.faq.items.7.a

koboldcppPage.faq.items.8.q

koboldcppPage.faq.items.8.a

koboldcppPage.faq.items.9.q

koboldcppPage.faq.items.9.a

开始使用 KoboldCpp

下载 KoboldCpp，获取 Gemma 4 GGUF 文件，几分钟内开始聊天。

下载 GGUF 模型试试 Ollama 所有部署方式