Exécuter Gemma 4 avec KoboldCpp
KoboldCpp est un moteur d'inférence multiplateforme convivial basé sur llama.cpp avec une interface web intégrée. C'est l'un des moyens les plus faciles d'exécuter les modèles Gemma 4 GGUF localement — particulièrement populaire dans les communautés d'écriture créative, de roleplay et de fiction interactive.
Contrairement aux outils en ligne de commande, KoboldCpp fournit un lanceur graphique et une UI de chat basée sur navigateur prête à l'emploi. Il prend en charge l'accélération CPU, CUDA (NVIDIA), ROCm (AMD), Vulkan et Metal (Apple), le rendant compatible avec pratiquement tout matériel.
Étape 1 : Télécharger KoboldCpp
Obtenez la dernière version depuis GitHub :
koboldcppPage.install.windows.title
koboldcppPage.install.windows.desc
koboldcppPage.install.mac.title
koboldcppPage.install.mac.desc
koboldcppPage.install.linux.title
koboldcppPage.install.linux.desc
Étape 2 : Obtenir les fichiers GGUF de Gemma 4
koboldcppPage.download.subtitle
koboldcppPage.download.items.0.name
koboldcppPage.download.items.0.sizekoboldcppPage.download.items.0.desc
koboldcppPage.download.items.1.name
koboldcppPage.download.items.1.sizekoboldcppPage.download.items.1.desc
koboldcppPage.download.items.2.name
koboldcppPage.download.items.2.sizekoboldcppPage.download.items.2.desc
koboldcppPage.download.items.3.name
koboldcppPage.download.items.3.sizekoboldcppPage.download.items.3.desc
Étape 3 : Lancer KoboldCpp
Lanceur GUI
Double-cliquez sur KoboldCpp pour ouvrir le lanceur. Sélectionnez votre fichier GGUF, configurez les couches GPU et cliquez sur Launch.
Ligne de commande
Ou lancez depuis le terminal avec plus de contrôle :
koboldcpp --model gemma-4-e4b-it-Q4_K_M.gguf --gpulayers 33 --contextsize 4096Paramètres recommandés
koboldcppPage.settings.items.0.title
Commencez avec 4096. Augmentez si vous avez besoin de conversations plus longues. Les valeurs plus élevées utilisent plus de RAM.
koboldcppPage.settings.items.1.title
Réglez au maximum que votre GPU peut gérer. Plus de couches = inférence plus rapide. 0 = CPU uniquement.
koboldcppPage.settings.items.2.title
Pour l'inférence CPU. Laissez 1 cœur pour la surcharge système.
koboldcppPage.settings.items.3.title
La valeur par défaut fonctionne bien. Augmentez pour un traitement de prompt plus rapide si vous avez de la RAM à revendre.
Intégration API
KoboldCpp expose à la fois l'API Kobold et une API compatible OpenAI. Utilisez avec SillyTavern, Agnaistic ou tout frontend compatible :
koboldcppPage.api.generate.title
curl http://localhost:5001/api/v1/generate \
-H "Content-Type: application/json" \
-d '{
"prompt": "Write a Python function to sort a list",
"max_length": 200,
"temperature": 0.7
}'koboldcppPage.api.check.title
curl http://localhost:5001/api/v1/modelFAQ KoboldCpp + Gemma 4
Qu'est-ce que KoboldCpp ?
KoboldCpp est un moteur d'inférence open source multiplateforme avec une UI web intégrée. Il est basé sur llama.cpp et prend en charge les modèles GGUF. Populaire pour l'écriture créative, le roleplay et le chat IA local.
Quel modèle Gemma 4 fonctionne le mieux avec KoboldCpp ?
Pour la plupart des utilisateurs, gemma-4-e4b-it-Q4_K_M.gguf (~3 Go) offre le meilleur équilibre. Si vous avez un GPU avec 24 Go+ de VRAM, le modèle 31B Q4 offre une qualité phare.
Puis-je utiliser KoboldCpp avec SillyTavern ?
Oui. KoboldCpp est l'un des backends les plus populaires pour SillyTavern. Connectez-vous via l'API Kobold à localhost:5001 ou le endpoint compatible OpenAI.
KoboldCpp vs Ollama — lequel devrais-je utiliser ?
Ollama est plus simple pour une configuration rapide et un usage axé API. KoboldCpp excelle avec son UI intégrée, ses paramètres d'échantillonneur avancés et sa compatibilité avec les frontends de chat comme SillyTavern. Choisissez en fonction de votre flux de travail.
KoboldCpp prend-il en charge le multimodal de Gemma 4 ?
KoboldCpp se concentre principalement sur la génération de texte. Pour les fonctionnalités multimodales (entrée image/vidéo/audio), utilisez plutôt Ollama ou vLLM.
Comment obtenir une inférence plus rapide ?
Maximisez le déchargement des couches GPU. Utilisez un modèle quantifié (Q4_K_M ou Q5_K_M). Activez CUDA/Metal/Vulkan dans le lanceur. Réduisez la taille de contexte si elle n'est pas nécessaire.
koboldcppPage.faq.items.6.q
koboldcppPage.faq.items.6.a
koboldcppPage.faq.items.7.q
koboldcppPage.faq.items.7.a
koboldcppPage.faq.items.8.q
koboldcppPage.faq.items.8.a
koboldcppPage.faq.items.9.q
koboldcppPage.faq.items.9.a
Démarrer avec KoboldCpp
Téléchargez KoboldCpp, récupérez un fichier GGUF de Gemma 4 et commencez à discuter en quelques minutes.