Gemma 4

使用 KoboldCpp 运行 Gemma 4

KoboldCpp 是一个基于 llama.cpp 的用户友好跨平台推理引擎,自带网页界面。它是本地运行 Gemma 4 GGUF 模型最简便的方式之一——在创意写作、角色扮演和互动小说社区中尤为流行。

与命令行工具不同,KoboldCpp 提供图形化启动器和浏览器聊天界面。支持 CPU、CUDA (NVIDIA)、ROCm (AMD)、Vulkan 和 Metal (Apple) 加速,几乎兼容所有硬件。

第一步:下载 KoboldCpp

从 GitHub 获取最新版本:

koboldcppPage.install.windows.title

koboldcppPage.install.windows.desc

koboldcppPage.install.mac.title

koboldcppPage.install.mac.desc

koboldcppPage.install.linux.title

koboldcppPage.install.linux.desc

第二步:获取 Gemma 4 GGUF 文件

koboldcppPage.download.subtitle

koboldcppPage.download.items.0.name

koboldcppPage.download.items.0.size

koboldcppPage.download.items.0.desc

koboldcppPage.download.items.1.name

koboldcppPage.download.items.1.size

koboldcppPage.download.items.1.desc

koboldcppPage.download.items.2.name

koboldcppPage.download.items.2.size

koboldcppPage.download.items.2.desc

koboldcppPage.download.items.3.name

koboldcppPage.download.items.3.size

koboldcppPage.download.items.3.desc

第三步:启动 KoboldCpp

图形界面启动

双击 KoboldCpp 打开启动器。选择 GGUF 文件,配置 GPU 层数,点击启动。

命令行启动

也可以从终端启动,获得更多控制:

koboldcpp --model gemma-4-e4b-it-Q4_K_M.gguf --gpulayers 33 --contextsize 4096

推荐设置

koboldcppPage.settings.items.0.title

从 4096 开始。需要更长对话时再增加。更大的值占用更多内存。

koboldcppPage.settings.items.1.title

设为 GPU 能承受的最大值。更多层 = 更快的推理。0 = 纯 CPU。

koboldcppPage.settings.items.2.title

用于 CPU 推理。留 1 个核心给系统。

koboldcppPage.settings.items.3.title

默认值即可。如果内存充足,增大可加快提示处理速度。

API 集成

KoboldCpp 同时提供 Kobold API 和兼容 OpenAI 的 API。可与 SillyTavern、Agnaistic 或任何兼容的前端配合使用:

koboldcppPage.api.generate.title

curl http://localhost:5001/api/v1/generate \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "Write a Python function to sort a list",
    "max_length": 200,
    "temperature": 0.7
  }'

koboldcppPage.api.check.title

curl http://localhost:5001/api/v1/model

KoboldCpp + Gemma 4 常见问题

KoboldCpp 是什么?

KoboldCpp 是一个开源的跨平台推理引擎,自带网页界面。基于 llama.cpp,支持 GGUF 模型。在创意写作、角色扮演和本地 AI 聊天领域很受欢迎。

哪个 Gemma 4 模型最适合 KoboldCpp?

对大多数用户来说,gemma-4-e4b-it-Q4_K_M.gguf (~3GB) 提供最佳平衡。如果你有 24GB+ 显存的 GPU,31B Q4 模型可提供旗舰级质量。

KoboldCpp 能和 SillyTavern 一起用吗?

可以。KoboldCpp 是 SillyTavern 最受欢迎的后端之一。通过 localhost:5001 的 Kobold API 或兼容 OpenAI 的端点连接。

KoboldCpp 和 Ollama 哪个好?

Ollama 更适合快速部署和 API 优先的使用方式。KoboldCpp 凭借内置界面、高级采样设置和与 SillyTavern 等聊天前端的兼容性见长。根据你的工作流程选择。

KoboldCpp 支持 Gemma 4 多模态吗?

KoboldCpp 主要专注于文本生成。如需多模态功能(图像/视频/音频输入),请改用 Ollama 或 vLLM。

怎么加快推理速度?

最大化 GPU 层卸载。使用量化模型 (Q4_K_M 或 Q5_K_M)。在启动器中启用 CUDA/Metal/Vulkan。如不需要则减小上下文长度。

koboldcppPage.faq.items.6.q

koboldcppPage.faq.items.6.a

koboldcppPage.faq.items.7.q

koboldcppPage.faq.items.7.a

koboldcppPage.faq.items.8.q

koboldcppPage.faq.items.8.a

koboldcppPage.faq.items.9.q

koboldcppPage.faq.items.9.a

开始使用 KoboldCpp

下载 KoboldCpp,获取 Gemma 4 GGUF 文件,几分钟内开始聊天。