Execute o Gemma 4 com KoboldCpp

KoboldCpp é um motor de inferência multiplataforma e amigável, baseado em llama.cpp, com uma interface web integrada. É uma das formas mais fáceis de rodar modelos GGUF do Gemma 4 localmente — especialmente popular entre comunidades de escrita criativa, roleplay e ficção interativa.

Diferente de ferramentas de linha de comando, o KoboldCpp fornece um launcher gráfico e uma UI de chat baseada em navegador por padrão. Ele suporta aceleração em CPU, CUDA (NVIDIA), ROCm (AMD), Vulkan e Metal (Apple), funcionando em praticamente qualquer hardware.

Passo 1: Baixar o KoboldCpp

Obtenha a versão mais recente no GitHub:

koboldcppPage.install.windows.title

koboldcppPage.install.windows.desc

koboldcppPage.install.mac.title

koboldcppPage.install.mac.desc

koboldcppPage.install.linux.title

koboldcppPage.install.linux.desc

Passo 2: Obter Arquivos GGUF do Gemma 4

koboldcppPage.download.subtitle

koboldcppPage.download.items.0.name

koboldcppPage.download.items.0.size

koboldcppPage.download.items.0.desc

koboldcppPage.download.items.1.name

koboldcppPage.download.items.1.size

koboldcppPage.download.items.1.desc

koboldcppPage.download.items.2.name

koboldcppPage.download.items.2.size

koboldcppPage.download.items.2.desc

koboldcppPage.download.items.3.name

koboldcppPage.download.items.3.size

koboldcppPage.download.items.3.desc

Passo 3: Iniciar o KoboldCpp

Launcher GUI

Clique duas vezes no KoboldCpp para abrir o launcher. Selecione seu arquivo GGUF, configure as camadas de GPU e clique em Launch.

Linha de Comando

Ou inicie pelo terminal com mais controle:

koboldcpp --model gemma-4-e4b-it-Q4_K_M.gguf --gpulayers 33 --contextsize 4096

Configurações Recomendadas

koboldcppPage.settings.items.0.title

Comece com 4096. Aumente se precisar de conversas mais longas. Valores maiores usam mais RAM.

koboldcppPage.settings.items.1.title

Defina no máximo que sua GPU pode lidar. Mais camadas = inferência mais rápida. 0 = apenas CPU.

koboldcppPage.settings.items.2.title

Para inferência em CPU. Deixe 1 núcleo para sobrecarga do sistema.

koboldcppPage.settings.items.3.title

O padrão funciona bem. Aumente para processamento de prompt mais rápido se tiver RAM de sobra.

Integração de API

O KoboldCpp expõe tanto a API Kobold quanto uma API compatível com OpenAI. Use com SillyTavern, Agnaistic ou qualquer frontend compatível:

koboldcppPage.api.generate.title

curl http://localhost:5001/api/v1/generate \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "Write a Python function to sort a list",
    "max_length": 200,
    "temperature": 0.7
  }'

koboldcppPage.api.check.title

curl http://localhost:5001/api/v1/model

FAQ KoboldCpp + Gemma 4

O que é o KoboldCpp?

KoboldCpp é um motor de inferência open source, multiplataforma, com UI web integrada. É baseado em llama.cpp e suporta modelos GGUF. Popular para escrita criativa, roleplay e chat de IA local.

Qual modelo Gemma 4 funciona melhor com KoboldCpp?

Para a maioria dos usuários, gemma-4-e4b-it-Q4_K_M.gguf (~3GB) oferece o melhor equilíbrio. Se você tem uma GPU com 24GB+ de VRAM, o modelo 31B Q4 oferece qualidade carro-chefe.

Posso usar o KoboldCpp com SillyTavern?

Sim. O KoboldCpp é um dos backends mais populares para SillyTavern. Conecte via API Kobold em localhost:5001 ou no endpoint compatível com OpenAI.

KoboldCpp vs Ollama — qual devo usar?

O Ollama é mais simples para configuração rápida e uso focado em API. O KoboldCpp se destaca com sua UI integrada, configurações avançadas de sampler e compatibilidade com frontends de chat como o SillyTavern. Escolha com base no seu fluxo de trabalho.

O KoboldCpp suporta o multimodal do Gemma 4?

O KoboldCpp foca principalmente em geração de texto. Para recursos multimodais (entrada de imagem/vídeo/áudio), use Ollama ou vLLM.

Como obtenho inferência mais rápida?

Maximize o offloading de camadas da GPU. Use um modelo quantizado (Q4_K_M ou Q5_K_M). Habilite CUDA/Metal/Vulkan no launcher. Reduza o tamanho do contexto se não for necessário.

koboldcppPage.faq.items.6.q

koboldcppPage.faq.items.6.a

koboldcppPage.faq.items.7.q

koboldcppPage.faq.items.7.a

koboldcppPage.faq.items.8.q

koboldcppPage.faq.items.8.a

koboldcppPage.faq.items.9.q

koboldcppPage.faq.items.9.a

Comece com o KoboldCpp

Baixe o KoboldCpp, pegue um arquivo GGUF do Gemma 4 e comece a conversar em minutos.

Baixar Modelos GGUF Experimente o Ollama Todas as Opções de Implantação