Ejecuta Gemma 4 con KoboldCpp
KoboldCpp es un motor de inferencia multiplataforma y amigable basado en llama.cpp con una interfaz web integrada. Es una de las formas más fáciles de ejecutar modelos Gemma 4 GGUF localmente — especialmente popular entre las comunidades de escritura creativa, roleplay y ficción interactiva.
A diferencia de las herramientas de línea de comandos, KoboldCpp ofrece un lanzador gráfico y una UI de chat basada en el navegador lista para usar. Admite aceleración en CPU, CUDA (NVIDIA), ROCm (AMD), Vulkan y Metal (Apple), haciéndolo funcionar en prácticamente cualquier hardware.
Paso 1: Descargar KoboldCpp
Obtén la última versión desde GitHub:
koboldcppPage.install.windows.title
koboldcppPage.install.windows.desc
koboldcppPage.install.mac.title
koboldcppPage.install.mac.desc
koboldcppPage.install.linux.title
koboldcppPage.install.linux.desc
Paso 2: Obtener archivos Gemma 4 GGUF
koboldcppPage.download.subtitle
koboldcppPage.download.items.0.name
koboldcppPage.download.items.0.sizekoboldcppPage.download.items.0.desc
koboldcppPage.download.items.1.name
koboldcppPage.download.items.1.sizekoboldcppPage.download.items.1.desc
koboldcppPage.download.items.2.name
koboldcppPage.download.items.2.sizekoboldcppPage.download.items.2.desc
koboldcppPage.download.items.3.name
koboldcppPage.download.items.3.sizekoboldcppPage.download.items.3.desc
Paso 3: Iniciar KoboldCpp
Lanzador GUI
Haz doble clic en KoboldCpp para abrir el lanzador. Selecciona tu archivo GGUF, configura las capas de GPU y haz clic en Launch.
Línea de comandos
O lanza desde la terminal con más control:
koboldcpp --model gemma-4-e4b-it-Q4_K_M.gguf --gpulayers 33 --contextsize 4096Ajustes recomendados
koboldcppPage.settings.items.0.title
Empieza con 4096. Auméntalo si necesitas conversaciones más largas. Valores más altos usan más RAM.
koboldcppPage.settings.items.1.title
Establece al máximo que tu GPU pueda manejar. Más capas = inferencia más rápida. 0 = solo CPU.
koboldcppPage.settings.items.2.title
Para inferencia en CPU. Deja 1 núcleo para la sobrecarga del sistema.
koboldcppPage.settings.items.3.title
El valor por defecto funciona bien. Aumenta para un procesamiento de prompt más rápido si tienes RAM de sobra.
Integración con API
KoboldCpp expone tanto la API de Kobold como una API compatible con OpenAI. Úsalo con SillyTavern, Agnaistic o cualquier frontend compatible:
koboldcppPage.api.generate.title
curl http://localhost:5001/api/v1/generate \
-H "Content-Type: application/json" \
-d '{
"prompt": "Write a Python function to sort a list",
"max_length": 200,
"temperature": 0.7
}'koboldcppPage.api.check.title
curl http://localhost:5001/api/v1/modelPreguntas frecuentes de KoboldCpp + Gemma 4
¿Qué es KoboldCpp?
KoboldCpp es un motor de inferencia de código abierto y multiplataforma con una UI web integrada. Se basa en llama.cpp y admite modelos GGUF. Popular para escritura creativa, roleplay y chat de IA local.
¿Qué modelo Gemma 4 funciona mejor con KoboldCpp?
Para la mayoría de los usuarios, gemma-4-e4b-it-Q4_K_M.gguf (~3GB) ofrece el mejor balance. Si tienes una GPU con 24GB+ de VRAM, el modelo 31B Q4 ofrece calidad insignia.
¿Puedo usar KoboldCpp con SillyTavern?
Sí. KoboldCpp es uno de los backends más populares para SillyTavern. Conecta vía la API de Kobold en localhost:5001 o el endpoint compatible con OpenAI.
KoboldCpp vs Ollama — ¿cuál debería usar?
Ollama es más simple para configuración rápida y uso centrado en API. KoboldCpp destaca con su UI integrada, ajustes avanzados de sampler y compatibilidad con frontends de chat como SillyTavern. Elige según tu flujo de trabajo.
¿KoboldCpp admite multimodalidad en Gemma 4?
KoboldCpp se centra principalmente en la generación de texto. Para funciones multimodales (entrada de imagen/video/audio), usa Ollama o vLLM en su lugar.
¿Cómo obtengo una inferencia más rápida?
Maximiza la descarga de capas a la GPU. Usa un modelo cuantizado (Q4_K_M o Q5_K_M). Habilita CUDA/Metal/Vulkan en el lanzador. Reduce el tamaño del contexto si no es necesario.
koboldcppPage.faq.items.6.q
koboldcppPage.faq.items.6.a
koboldcppPage.faq.items.7.q
koboldcppPage.faq.items.7.a
koboldcppPage.faq.items.8.q
koboldcppPage.faq.items.8.a
koboldcppPage.faq.items.9.q
koboldcppPage.faq.items.9.a
Comienza con KoboldCpp
Descarga KoboldCpp, obtén un archivo GGUF de Gemma 4 y empieza a chatear en minutos.