Ejecuta Gemma 4 con KoboldCpp

KoboldCpp es un motor de inferencia multiplataforma y amigable basado en llama.cpp con una interfaz web integrada. Es una de las formas más fáciles de ejecutar modelos Gemma 4 GGUF localmente — especialmente popular entre las comunidades de escritura creativa, roleplay y ficción interactiva.

A diferencia de las herramientas de línea de comandos, KoboldCpp ofrece un lanzador gráfico y una UI de chat basada en el navegador lista para usar. Admite aceleración en CPU, CUDA (NVIDIA), ROCm (AMD), Vulkan y Metal (Apple), haciéndolo funcionar en prácticamente cualquier hardware.

Paso 1: Descargar KoboldCpp

Obtén la última versión desde GitHub:

koboldcppPage.install.windows.title

koboldcppPage.install.windows.desc

koboldcppPage.install.mac.title

koboldcppPage.install.mac.desc

koboldcppPage.install.linux.title

koboldcppPage.install.linux.desc

Paso 2: Obtener archivos Gemma 4 GGUF

koboldcppPage.download.subtitle

koboldcppPage.download.items.0.name

koboldcppPage.download.items.0.size

koboldcppPage.download.items.0.desc

koboldcppPage.download.items.1.name

koboldcppPage.download.items.1.size

koboldcppPage.download.items.1.desc

koboldcppPage.download.items.2.name

koboldcppPage.download.items.2.size

koboldcppPage.download.items.2.desc

koboldcppPage.download.items.3.name

koboldcppPage.download.items.3.size

koboldcppPage.download.items.3.desc

Paso 3: Iniciar KoboldCpp

Lanzador GUI

Haz doble clic en KoboldCpp para abrir el lanzador. Selecciona tu archivo GGUF, configura las capas de GPU y haz clic en Launch.

Línea de comandos

O lanza desde la terminal con más control:

koboldcpp --model gemma-4-e4b-it-Q4_K_M.gguf --gpulayers 33 --contextsize 4096

Ajustes recomendados

koboldcppPage.settings.items.0.title

Empieza con 4096. Auméntalo si necesitas conversaciones más largas. Valores más altos usan más RAM.

koboldcppPage.settings.items.1.title

Establece al máximo que tu GPU pueda manejar. Más capas = inferencia más rápida. 0 = solo CPU.

koboldcppPage.settings.items.2.title

Para inferencia en CPU. Deja 1 núcleo para la sobrecarga del sistema.

koboldcppPage.settings.items.3.title

El valor por defecto funciona bien. Aumenta para un procesamiento de prompt más rápido si tienes RAM de sobra.

Integración con API

KoboldCpp expone tanto la API de Kobold como una API compatible con OpenAI. Úsalo con SillyTavern, Agnaistic o cualquier frontend compatible:

koboldcppPage.api.generate.title

curl http://localhost:5001/api/v1/generate \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "Write a Python function to sort a list",
    "max_length": 200,
    "temperature": 0.7
  }'

koboldcppPage.api.check.title

curl http://localhost:5001/api/v1/model

Preguntas frecuentes de KoboldCpp + Gemma 4

¿Qué es KoboldCpp?

KoboldCpp es un motor de inferencia de código abierto y multiplataforma con una UI web integrada. Se basa en llama.cpp y admite modelos GGUF. Popular para escritura creativa, roleplay y chat de IA local.

¿Qué modelo Gemma 4 funciona mejor con KoboldCpp?

Para la mayoría de los usuarios, gemma-4-e4b-it-Q4_K_M.gguf (~3GB) ofrece el mejor balance. Si tienes una GPU con 24GB+ de VRAM, el modelo 31B Q4 ofrece calidad insignia.

¿Puedo usar KoboldCpp con SillyTavern?

Sí. KoboldCpp es uno de los backends más populares para SillyTavern. Conecta vía la API de Kobold en localhost:5001 o el endpoint compatible con OpenAI.

KoboldCpp vs Ollama — ¿cuál debería usar?

Ollama es más simple para configuración rápida y uso centrado en API. KoboldCpp destaca con su UI integrada, ajustes avanzados de sampler y compatibilidad con frontends de chat como SillyTavern. Elige según tu flujo de trabajo.

¿KoboldCpp admite multimodalidad en Gemma 4?

KoboldCpp se centra principalmente en la generación de texto. Para funciones multimodales (entrada de imagen/video/audio), usa Ollama o vLLM en su lugar.

¿Cómo obtengo una inferencia más rápida?

Maximiza la descarga de capas a la GPU. Usa un modelo cuantizado (Q4_K_M o Q5_K_M). Habilita CUDA/Metal/Vulkan en el lanzador. Reduce el tamaño del contexto si no es necesario.

koboldcppPage.faq.items.6.q

koboldcppPage.faq.items.6.a

koboldcppPage.faq.items.7.q

koboldcppPage.faq.items.7.a

koboldcppPage.faq.items.8.q

koboldcppPage.faq.items.8.a

koboldcppPage.faq.items.9.q

koboldcppPage.faq.items.9.a

Comienza con KoboldCpp

Descarga KoboldCpp, obtén un archivo GGUF de Gemma 4 y empieza a chatear en minutos.

Descargar modelos GGUF Probar Ollama en su lugar Todas las opciones de despliegue