Execute o Gemma 4 com KoboldCpp
KoboldCpp é um motor de inferência multiplataforma e amigável, baseado em llama.cpp, com uma interface web integrada. É uma das formas mais fáceis de rodar modelos GGUF do Gemma 4 localmente — especialmente popular entre comunidades de escrita criativa, roleplay e ficção interativa.
Diferente de ferramentas de linha de comando, o KoboldCpp fornece um launcher gráfico e uma UI de chat baseada em navegador por padrão. Ele suporta aceleração em CPU, CUDA (NVIDIA), ROCm (AMD), Vulkan e Metal (Apple), funcionando em praticamente qualquer hardware.
Passo 1: Baixar o KoboldCpp
Obtenha a versão mais recente no GitHub:
koboldcppPage.install.windows.title
koboldcppPage.install.windows.desc
koboldcppPage.install.mac.title
koboldcppPage.install.mac.desc
koboldcppPage.install.linux.title
koboldcppPage.install.linux.desc
Passo 2: Obter Arquivos GGUF do Gemma 4
koboldcppPage.download.subtitle
koboldcppPage.download.items.0.name
koboldcppPage.download.items.0.sizekoboldcppPage.download.items.0.desc
koboldcppPage.download.items.1.name
koboldcppPage.download.items.1.sizekoboldcppPage.download.items.1.desc
koboldcppPage.download.items.2.name
koboldcppPage.download.items.2.sizekoboldcppPage.download.items.2.desc
koboldcppPage.download.items.3.name
koboldcppPage.download.items.3.sizekoboldcppPage.download.items.3.desc
Passo 3: Iniciar o KoboldCpp
Launcher GUI
Clique duas vezes no KoboldCpp para abrir o launcher. Selecione seu arquivo GGUF, configure as camadas de GPU e clique em Launch.
Linha de Comando
Ou inicie pelo terminal com mais controle:
koboldcpp --model gemma-4-e4b-it-Q4_K_M.gguf --gpulayers 33 --contextsize 4096Configurações Recomendadas
koboldcppPage.settings.items.0.title
Comece com 4096. Aumente se precisar de conversas mais longas. Valores maiores usam mais RAM.
koboldcppPage.settings.items.1.title
Defina no máximo que sua GPU pode lidar. Mais camadas = inferência mais rápida. 0 = apenas CPU.
koboldcppPage.settings.items.2.title
Para inferência em CPU. Deixe 1 núcleo para sobrecarga do sistema.
koboldcppPage.settings.items.3.title
O padrão funciona bem. Aumente para processamento de prompt mais rápido se tiver RAM de sobra.
Integração de API
O KoboldCpp expõe tanto a API Kobold quanto uma API compatível com OpenAI. Use com SillyTavern, Agnaistic ou qualquer frontend compatível:
koboldcppPage.api.generate.title
curl http://localhost:5001/api/v1/generate \
-H "Content-Type: application/json" \
-d '{
"prompt": "Write a Python function to sort a list",
"max_length": 200,
"temperature": 0.7
}'koboldcppPage.api.check.title
curl http://localhost:5001/api/v1/modelFAQ KoboldCpp + Gemma 4
O que é o KoboldCpp?
KoboldCpp é um motor de inferência open source, multiplataforma, com UI web integrada. É baseado em llama.cpp e suporta modelos GGUF. Popular para escrita criativa, roleplay e chat de IA local.
Qual modelo Gemma 4 funciona melhor com KoboldCpp?
Para a maioria dos usuários, gemma-4-e4b-it-Q4_K_M.gguf (~3GB) oferece o melhor equilíbrio. Se você tem uma GPU com 24GB+ de VRAM, o modelo 31B Q4 oferece qualidade carro-chefe.
Posso usar o KoboldCpp com SillyTavern?
Sim. O KoboldCpp é um dos backends mais populares para SillyTavern. Conecte via API Kobold em localhost:5001 ou no endpoint compatível com OpenAI.
KoboldCpp vs Ollama — qual devo usar?
O Ollama é mais simples para configuração rápida e uso focado em API. O KoboldCpp se destaca com sua UI integrada, configurações avançadas de sampler e compatibilidade com frontends de chat como o SillyTavern. Escolha com base no seu fluxo de trabalho.
O KoboldCpp suporta o multimodal do Gemma 4?
O KoboldCpp foca principalmente em geração de texto. Para recursos multimodais (entrada de imagem/vídeo/áudio), use Ollama ou vLLM.
Como obtenho inferência mais rápida?
Maximize o offloading de camadas da GPU. Use um modelo quantizado (Q4_K_M ou Q5_K_M). Habilite CUDA/Metal/Vulkan no launcher. Reduza o tamanho do contexto se não for necessário.
koboldcppPage.faq.items.6.q
koboldcppPage.faq.items.6.a
koboldcppPage.faq.items.7.q
koboldcppPage.faq.items.7.a
koboldcppPage.faq.items.8.q
koboldcppPage.faq.items.8.a
koboldcppPage.faq.items.9.q
koboldcppPage.faq.items.9.a
Comece com o KoboldCpp
Baixe o KoboldCpp, pegue um arquivo GGUF do Gemma 4 e comece a conversar em minutos.