使用 KoboldCpp 运行 Gemma 4
KoboldCpp 是一个基于 llama.cpp 的用户友好跨平台推理引擎,自带网页界面。它是本地运行 Gemma 4 GGUF 模型最简便的方式之一——在创意写作、角色扮演和互动小说社区中尤为流行。
与命令行工具不同,KoboldCpp 提供图形化启动器和浏览器聊天界面。支持 CPU、CUDA (NVIDIA)、ROCm (AMD)、Vulkan 和 Metal (Apple) 加速,几乎兼容所有硬件。
第一步:下载 KoboldCpp
从 GitHub 获取最新版本:
koboldcppPage.install.windows.title
koboldcppPage.install.windows.desc
koboldcppPage.install.mac.title
koboldcppPage.install.mac.desc
koboldcppPage.install.linux.title
koboldcppPage.install.linux.desc
第二步:获取 Gemma 4 GGUF 文件
koboldcppPage.download.subtitle
koboldcppPage.download.items.0.name
koboldcppPage.download.items.0.sizekoboldcppPage.download.items.0.desc
koboldcppPage.download.items.1.name
koboldcppPage.download.items.1.sizekoboldcppPage.download.items.1.desc
koboldcppPage.download.items.2.name
koboldcppPage.download.items.2.sizekoboldcppPage.download.items.2.desc
koboldcppPage.download.items.3.name
koboldcppPage.download.items.3.sizekoboldcppPage.download.items.3.desc
第三步:启动 KoboldCpp
图形界面启动
双击 KoboldCpp 打开启动器。选择 GGUF 文件,配置 GPU 层数,点击启动。
命令行启动
也可以从终端启动,获得更多控制:
koboldcpp --model gemma-4-e4b-it-Q4_K_M.gguf --gpulayers 33 --contextsize 4096推荐设置
koboldcppPage.settings.items.0.title
从 4096 开始。需要更长对话时再增加。更大的值占用更多内存。
koboldcppPage.settings.items.1.title
设为 GPU 能承受的最大值。更多层 = 更快的推理。0 = 纯 CPU。
koboldcppPage.settings.items.2.title
用于 CPU 推理。留 1 个核心给系统。
koboldcppPage.settings.items.3.title
默认值即可。如果内存充足,增大可加快提示处理速度。
API 集成
KoboldCpp 同时提供 Kobold API 和兼容 OpenAI 的 API。可与 SillyTavern、Agnaistic 或任何兼容的前端配合使用:
koboldcppPage.api.generate.title
curl http://localhost:5001/api/v1/generate \
-H "Content-Type: application/json" \
-d '{
"prompt": "Write a Python function to sort a list",
"max_length": 200,
"temperature": 0.7
}'koboldcppPage.api.check.title
curl http://localhost:5001/api/v1/modelKoboldCpp + Gemma 4 常见问题
KoboldCpp 是什么?
KoboldCpp 是一个开源的跨平台推理引擎,自带网页界面。基于 llama.cpp,支持 GGUF 模型。在创意写作、角色扮演和本地 AI 聊天领域很受欢迎。
哪个 Gemma 4 模型最适合 KoboldCpp?
对大多数用户来说,gemma-4-e4b-it-Q4_K_M.gguf (~3GB) 提供最佳平衡。如果你有 24GB+ 显存的 GPU,31B Q4 模型可提供旗舰级质量。
KoboldCpp 能和 SillyTavern 一起用吗?
可以。KoboldCpp 是 SillyTavern 最受欢迎的后端之一。通过 localhost:5001 的 Kobold API 或兼容 OpenAI 的端点连接。
KoboldCpp 和 Ollama 哪个好?
Ollama 更适合快速部署和 API 优先的使用方式。KoboldCpp 凭借内置界面、高级采样设置和与 SillyTavern 等聊天前端的兼容性见长。根据你的工作流程选择。
KoboldCpp 支持 Gemma 4 多模态吗?
KoboldCpp 主要专注于文本生成。如需多模态功能(图像/视频/音频输入),请改用 Ollama 或 vLLM。
怎么加快推理速度?
最大化 GPU 层卸载。使用量化模型 (Q4_K_M 或 Q5_K_M)。在启动器中启用 CUDA/Metal/Vulkan。如不需要则减小上下文长度。
koboldcppPage.faq.items.6.q
koboldcppPage.faq.items.6.a
koboldcppPage.faq.items.7.q
koboldcppPage.faq.items.7.a
koboldcppPage.faq.items.8.q
koboldcppPage.faq.items.8.a
koboldcppPage.faq.items.9.q
koboldcppPage.faq.items.9.a