Exécuter Gemma 4 avec Ollama
Ollama est le moyen le plus rapide et le plus simple d'exécuter Gemma 4 sur votre propre matériel. Avec une seule commande, vous pouvez télécharger et commencer à discuter avec n'importe quelle variante du modèle Gemma 4 — pas d'environnement Python, pas de configuration complexe, pas de configuration GPU requise.
Ollama détecte automatiquement votre matériel (CPU, GPU, mémoire) et optimise la configuration du modèle pour des performances optimales. Il prend en charge macOS, Linux et Windows, et fournit une API compatible OpenAI pour une intégration facile dans vos applications.
Étape 1 : Installer Ollama
macOS
Téléchargez depuis ollama.com ou installez via Homebrew :
# Homebrew
brew install ollama
# Or download from https://ollama.com/download/macLinux
Script d'installation en une ligne :
curl -fsSL https://ollama.com/install.sh | shWindows
Téléchargez l'installateur depuis ollama.com ou utilisez winget :
# winget
winget install Ollama.Ollama
# Or download from https://ollama.com/download/windowsVérifier l'installation :
ollama --versionÉtape 2 : Choisissez votre modèle Gemma 4
Toutes les variantes de Gemma 4 sont disponibles dans la bibliothèque Ollama. Choisissez en fonction de votre matériel et de vos besoins :
Ultra-léger pour les appareils edge et les tâches de base
Meilleur équilibre entre qualité et utilisation des ressources
Architecture MoE — qualité de grand modèle au coût d'un petit modèle
Qualité maximale — modèle dense phare
Étape 3 : Exécuter Gemma 4
Démarrer une session de chat interactive :
# Start interactive chat with Gemma 4 E4B
ollama run gemma4:e4b
# Or the flagship 31B model
ollama run gemma4:31bExécuter une seule requête :
ollama run gemma4:e4b "Explain quantum computing in simple terms"Utiliser avec des images (multimodal) :
# In the interactive chat, use /image to add images
ollama run gemma4:e4b
>>> /image photo.jpg What do you see in this image?Utilisation de l'API Ollama
Ollama fournit une API REST compatible OpenAI à localhost:11434, facilitant l'intégration de Gemma 4 dans vos applications :
Complétion de chat :
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:e4b",
"messages": [
{"role": "user", "content": "Hello, Gemma 4!"}
]
}'Génération de texte :
curl http://localhost:11434/api/generate \
-d '{
"model": "gemma4:e4b",
"prompt": "Write a Python function to sort a list"
}'Configuration avancée
Modelfile personnalisé
Créez un Modelfile personnalisé pour ajuster les paramètres du modèle comme la température, la longueur de contexte et le prompt système :
FROM gemma4:e4b
PARAMETER temperature 0.7
PARAMETER num_ctx 32768
SYSTEM """
You are a helpful coding assistant. Always provide code examples.
"""Configuration GPU
Ollama détecte automatiquement les GPU, mais vous pouvez contrôler le déchargement des couches GPU :
# Set number of GPU layers
OLLAMA_NUM_GPU=35 ollama run gemma4:31b
# CPU only mode
OLLAMA_NUM_GPU=0 ollama run gemma4:e4bLongueur de contexte
Augmentez la fenêtre de contexte par défaut pour des conversations plus longues :
ollama run gemma4:e4b --num-ctx 65536Dépannage
Le téléchargement du modèle est lent
Ollama télécharge depuis le CDN ollama.com. Si c'est lent, vérifiez votre connexion Internet ou essayez un VPN. Les grands modèles (26B, 31B) peuvent prendre 10-30 minutes selon la bande passante.
Erreur de mémoire insuffisante
Essayez une variante de modèle plus petite ou une version quantifiée. Utilisez 'ollama run gemma4:e4b' au lieu du modèle 31B. Sur les systèmes avec peu de RAM, fermez les autres applications avant l'exécution.
Vitesse d'inférence lente
Assurez-vous qu'Ollama utilise votre GPU : vérifiez avec 'ollama ps'. Sur Mac, Ollama utilise automatiquement l'accélération GPU Metal. Sur Linux/Windows, assurez-vous que les pilotes GPU NVIDIA ou AMD sont correctement installés.
Connexion API refusée
Assurez-vous que le service Ollama est en cours d'exécution : 'ollama serve'. Le endpoint API par défaut est http://localhost:11434. Vérifiez les paramètres du pare-feu si vous y accédez depuis une autre machine.
FAQ Ollama + Gemma 4
Quel est le meilleur modèle Gemma 4 à exécuter avec Ollama ?
Pour la plupart des utilisateurs, gemma4:e4b offre le meilleur équilibre entre qualité et performances. Si vous avez un GPU avec 16 Go+ de VRAM, gemma4:26b offre une qualité proche du modèle phare avec une inférence MoE efficace. Le modèle gemma4:31b nécessite 24 Go+ de VRAM mais offre des performances maximales.
Puis-je exécuter Gemma 4 sur Ollama sans GPU ?
Oui. Ollama prend en charge l'inférence CPU uniquement pour toutes les variantes de Gemma 4. Les modèles E2B et E4B fonctionnent assez rapidement sur CPU. Les modèles plus grands seront beaucoup plus lents sans accélération GPU mais resteront fonctionnels.
Comment mettre à jour Gemma 4 dans Ollama ?
Exécutez 'ollama pull gemma4:e4b' (ou votre variante préférée) pour télécharger la dernière version. Ollama ne téléchargera que les différences si vous avez déjà une version précédente installée.
Puis-je utiliser Ollama Gemma 4 avec d'autres outils ?
Oui. L'API compatible OpenAI d'Ollama fonctionne avec la plupart des outils et frameworks d'IA, notamment LangChain, LlamaIndex, Open WebUI, Continue.dev et bien d'autres. Pointez-les simplement vers http://localhost:11434.
Ollama prend-il en charge les fonctionnalités multimodales de Gemma 4 ?
Oui. Ollama prend en charge les capacités multimodales de Gemma 4. Vous pouvez transmettre des images au modèle en utilisant la commande /image dans le chat interactif ou via le paramètre image de l'API.
Combien d'espace disque Gemma 4 nécessite-t-il dans Ollama ?
L'espace disque dépend de la variante : E2B (~1,5 Go), E4B (~3 Go), 26B MoE (~15 Go), 31B Dense (~18 Go). Ce sont les valeurs pour la quantification par défaut. Les modèles sont stockés dans ~/.ollama/models sur macOS/Linux.
ollamaGuide.faq.items.6.q
ollamaGuide.faq.items.6.a
ollamaGuide.faq.items.7.q
ollamaGuide.faq.items.7.a
ollamaGuide.faq.items.8.q
ollamaGuide.faq.items.8.a
ollamaGuide.faq.items.9.q
ollamaGuide.faq.items.9.a
Prêt à exécuter Gemma 4 ?
Installez Ollama et commencez à discuter avec Gemma 4 en quelques minutes. Ou explorez d'autres options de déploiement.