Exécuter Gemma 4 avec Ollama

Ollama est le moyen le plus rapide et le plus simple d'exécuter Gemma 4 sur votre propre matériel. Avec une seule commande, vous pouvez télécharger et commencer à discuter avec n'importe quelle variante du modèle Gemma 4 — pas d'environnement Python, pas de configuration complexe, pas de configuration GPU requise.

Ollama détecte automatiquement votre matériel (CPU, GPU, mémoire) et optimise la configuration du modèle pour des performances optimales. Il prend en charge macOS, Linux et Windows, et fournit une API compatible OpenAI pour une intégration facile dans vos applications.

Étape 1 : Installer Ollama

macOS

Téléchargez depuis ollama.com ou installez via Homebrew :

# Homebrew
brew install ollama

# Or download from https://ollama.com/download/mac

Linux

Script d'installation en une ligne :

curl -fsSL https://ollama.com/install.sh | sh

Windows

Téléchargez l'installateur depuis ollama.com ou utilisez winget :

# winget
winget install Ollama.Ollama

# Or download from https://ollama.com/download/windows

Vérifier l'installation :

ollama --version

Étape 2 : Choisissez votre modèle Gemma 4

Toutes les variantes de Gemma 4 sont disponibles dans la bibliothèque Ollama. Choisissez en fonction de votre matériel et de vos besoins :

gemma4:e2b

~1,5 GoVRAM: 2 Go

Ultra-léger pour les appareils edge et les tâches de base

gemma4:e4b

~3 GoVRAM: 4 Go

Meilleur équilibre entre qualité et utilisation des ressources

gemma4:26b

~15 GoVRAM: 16 Go

Architecture MoE — qualité de grand modèle au coût d'un petit modèle

gemma4:31b

~18 GoVRAM: 24 Go

Qualité maximale — modèle dense phare

Étape 3 : Exécuter Gemma 4

Démarrer une session de chat interactive :

# Start interactive chat with Gemma 4 E4B
ollama run gemma4:e4b

# Or the flagship 31B model
ollama run gemma4:31b

Exécuter une seule requête :

ollama run gemma4:e4b "Explain quantum computing in simple terms"

Utiliser avec des images (multimodal) :

# In the interactive chat, use /image to add images
ollama run gemma4:e4b
>>> /image photo.jpg What do you see in this image?

Utilisation de l'API Ollama

Ollama fournit une API REST compatible OpenAI à localhost:11434, facilitant l'intégration de Gemma 4 dans vos applications :

Complétion de chat :

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:e4b",
    "messages": [
      {"role": "user", "content": "Hello, Gemma 4!"}
    ]
  }'

Génération de texte :

curl http://localhost:11434/api/generate \
  -d '{
    "model": "gemma4:e4b",
    "prompt": "Write a Python function to sort a list"
  }'

Configuration avancée

Modelfile personnalisé

Créez un Modelfile personnalisé pour ajuster les paramètres du modèle comme la température, la longueur de contexte et le prompt système :

FROM gemma4:e4b

PARAMETER temperature 0.7
PARAMETER num_ctx 32768

SYSTEM """
You are a helpful coding assistant. Always provide code examples.
"""

Configuration GPU

Ollama détecte automatiquement les GPU, mais vous pouvez contrôler le déchargement des couches GPU :

# Set number of GPU layers
OLLAMA_NUM_GPU=35 ollama run gemma4:31b

# CPU only mode
OLLAMA_NUM_GPU=0 ollama run gemma4:e4b

Longueur de contexte

Augmentez la fenêtre de contexte par défaut pour des conversations plus longues :

ollama run gemma4:e4b --num-ctx 65536

Dépannage

Le téléchargement du modèle est lent

Ollama télécharge depuis le CDN ollama.com. Si c'est lent, vérifiez votre connexion Internet ou essayez un VPN. Les grands modèles (26B, 31B) peuvent prendre 10-30 minutes selon la bande passante.

Erreur de mémoire insuffisante

Essayez une variante de modèle plus petite ou une version quantifiée. Utilisez 'ollama run gemma4:e4b' au lieu du modèle 31B. Sur les systèmes avec peu de RAM, fermez les autres applications avant l'exécution.

Vitesse d'inférence lente

Assurez-vous qu'Ollama utilise votre GPU : vérifiez avec 'ollama ps'. Sur Mac, Ollama utilise automatiquement l'accélération GPU Metal. Sur Linux/Windows, assurez-vous que les pilotes GPU NVIDIA ou AMD sont correctement installés.

Connexion API refusée

Assurez-vous que le service Ollama est en cours d'exécution : 'ollama serve'. Le endpoint API par défaut est http://localhost:11434. Vérifiez les paramètres du pare-feu si vous y accédez depuis une autre machine.

FAQ Ollama + Gemma 4

Quel est le meilleur modèle Gemma 4 à exécuter avec Ollama ?

Pour la plupart des utilisateurs, gemma4:e4b offre le meilleur équilibre entre qualité et performances. Si vous avez un GPU avec 16 Go+ de VRAM, gemma4:26b offre une qualité proche du modèle phare avec une inférence MoE efficace. Le modèle gemma4:31b nécessite 24 Go+ de VRAM mais offre des performances maximales.

Puis-je exécuter Gemma 4 sur Ollama sans GPU ?

Oui. Ollama prend en charge l'inférence CPU uniquement pour toutes les variantes de Gemma 4. Les modèles E2B et E4B fonctionnent assez rapidement sur CPU. Les modèles plus grands seront beaucoup plus lents sans accélération GPU mais resteront fonctionnels.

Comment mettre à jour Gemma 4 dans Ollama ?

Exécutez 'ollama pull gemma4:e4b' (ou votre variante préférée) pour télécharger la dernière version. Ollama ne téléchargera que les différences si vous avez déjà une version précédente installée.

Puis-je utiliser Ollama Gemma 4 avec d'autres outils ?

Oui. L'API compatible OpenAI d'Ollama fonctionne avec la plupart des outils et frameworks d'IA, notamment LangChain, LlamaIndex, Open WebUI, Continue.dev et bien d'autres. Pointez-les simplement vers http://localhost:11434.

Ollama prend-il en charge les fonctionnalités multimodales de Gemma 4 ?

Oui. Ollama prend en charge les capacités multimodales de Gemma 4. Vous pouvez transmettre des images au modèle en utilisant la commande /image dans le chat interactif ou via le paramètre image de l'API.

Combien d'espace disque Gemma 4 nécessite-t-il dans Ollama ?

L'espace disque dépend de la variante : E2B (~1,5 Go), E4B (~3 Go), 26B MoE (~15 Go), 31B Dense (~18 Go). Ce sont les valeurs pour la quantification par défaut. Les modèles sont stockés dans ~/.ollama/models sur macOS/Linux.

ollamaGuide.faq.items.6.q

ollamaGuide.faq.items.6.a

ollamaGuide.faq.items.7.q

ollamaGuide.faq.items.7.a

ollamaGuide.faq.items.8.q

ollamaGuide.faq.items.8.a

ollamaGuide.faq.items.9.q

ollamaGuide.faq.items.9.a

Prêt à exécuter Gemma 4 ?

Installez Ollama et commencez à discuter avec Gemma 4 en quelques minutes. Ou explorez d'autres options de déploiement.

Installer Ollama Autres options de déploiement Essayer en ligne d'abord