Exécuter Gemma 4 avec KoboldCpp

KoboldCpp est un moteur d'inférence multiplateforme convivial basé sur llama.cpp avec une interface web intégrée. C'est l'un des moyens les plus faciles d'exécuter les modèles Gemma 4 GGUF localement — particulièrement populaire dans les communautés d'écriture créative, de roleplay et de fiction interactive.

Contrairement aux outils en ligne de commande, KoboldCpp fournit un lanceur graphique et une UI de chat basée sur navigateur prête à l'emploi. Il prend en charge l'accélération CPU, CUDA (NVIDIA), ROCm (AMD), Vulkan et Metal (Apple), le rendant compatible avec pratiquement tout matériel.

Étape 1 : Télécharger KoboldCpp

Obtenez la dernière version depuis GitHub :

koboldcppPage.install.windows.title

koboldcppPage.install.windows.desc

koboldcppPage.install.mac.title

koboldcppPage.install.mac.desc

koboldcppPage.install.linux.title

koboldcppPage.install.linux.desc

Étape 2 : Obtenir les fichiers GGUF de Gemma 4

koboldcppPage.download.subtitle

koboldcppPage.download.items.0.name

koboldcppPage.download.items.0.size

koboldcppPage.download.items.0.desc

koboldcppPage.download.items.1.name

koboldcppPage.download.items.1.size

koboldcppPage.download.items.1.desc

koboldcppPage.download.items.2.name

koboldcppPage.download.items.2.size

koboldcppPage.download.items.2.desc

koboldcppPage.download.items.3.name

koboldcppPage.download.items.3.size

koboldcppPage.download.items.3.desc

Étape 3 : Lancer KoboldCpp

Lanceur GUI

Double-cliquez sur KoboldCpp pour ouvrir le lanceur. Sélectionnez votre fichier GGUF, configurez les couches GPU et cliquez sur Launch.

Ligne de commande

Ou lancez depuis le terminal avec plus de contrôle :

koboldcpp --model gemma-4-e4b-it-Q4_K_M.gguf --gpulayers 33 --contextsize 4096

Paramètres recommandés

koboldcppPage.settings.items.0.title

Commencez avec 4096. Augmentez si vous avez besoin de conversations plus longues. Les valeurs plus élevées utilisent plus de RAM.

koboldcppPage.settings.items.1.title

Réglez au maximum que votre GPU peut gérer. Plus de couches = inférence plus rapide. 0 = CPU uniquement.

koboldcppPage.settings.items.2.title

Pour l'inférence CPU. Laissez 1 cœur pour la surcharge système.

koboldcppPage.settings.items.3.title

La valeur par défaut fonctionne bien. Augmentez pour un traitement de prompt plus rapide si vous avez de la RAM à revendre.

Intégration API

KoboldCpp expose à la fois l'API Kobold et une API compatible OpenAI. Utilisez avec SillyTavern, Agnaistic ou tout frontend compatible :

koboldcppPage.api.generate.title

curl http://localhost:5001/api/v1/generate \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "Write a Python function to sort a list",
    "max_length": 200,
    "temperature": 0.7
  }'

koboldcppPage.api.check.title

curl http://localhost:5001/api/v1/model

FAQ KoboldCpp + Gemma 4

Qu'est-ce que KoboldCpp ?

KoboldCpp est un moteur d'inférence open source multiplateforme avec une UI web intégrée. Il est basé sur llama.cpp et prend en charge les modèles GGUF. Populaire pour l'écriture créative, le roleplay et le chat IA local.

Quel modèle Gemma 4 fonctionne le mieux avec KoboldCpp ?

Pour la plupart des utilisateurs, gemma-4-e4b-it-Q4_K_M.gguf (~3 Go) offre le meilleur équilibre. Si vous avez un GPU avec 24 Go+ de VRAM, le modèle 31B Q4 offre une qualité phare.

Puis-je utiliser KoboldCpp avec SillyTavern ?

Oui. KoboldCpp est l'un des backends les plus populaires pour SillyTavern. Connectez-vous via l'API Kobold à localhost:5001 ou le endpoint compatible OpenAI.

KoboldCpp vs Ollama — lequel devrais-je utiliser ?

Ollama est plus simple pour une configuration rapide et un usage axé API. KoboldCpp excelle avec son UI intégrée, ses paramètres d'échantillonneur avancés et sa compatibilité avec les frontends de chat comme SillyTavern. Choisissez en fonction de votre flux de travail.

KoboldCpp prend-il en charge le multimodal de Gemma 4 ?

KoboldCpp se concentre principalement sur la génération de texte. Pour les fonctionnalités multimodales (entrée image/vidéo/audio), utilisez plutôt Ollama ou vLLM.

Comment obtenir une inférence plus rapide ?

Maximisez le déchargement des couches GPU. Utilisez un modèle quantifié (Q4_K_M ou Q5_K_M). Activez CUDA/Metal/Vulkan dans le lanceur. Réduisez la taille de contexte si elle n'est pas nécessaire.

koboldcppPage.faq.items.6.q

koboldcppPage.faq.items.6.a

koboldcppPage.faq.items.7.q

koboldcppPage.faq.items.7.a

koboldcppPage.faq.items.8.q

koboldcppPage.faq.items.8.a

koboldcppPage.faq.items.9.q

koboldcppPage.faq.items.9.a

Démarrer avec KoboldCpp

Téléchargez KoboldCpp, récupérez un fichier GGUF de Gemma 4 et commencez à discuter en quelques minutes.

Télécharger les modèles GGUF Essayer Ollama à la place Toutes les options de déploiement