Télécharger les modèles Gemma 4

Les poids du modèle Gemma 4 sont disponibles gratuitement à partir de plusieurs sources officielles. Que vous ayez besoin de poids en pleine précision pour la recherche, de fichiers GGUF quantifiés pour l'inférence locale ou de modèles préemballés pour Ollama, ce guide couvre toutes les options de téléchargement.

Tous les modèles Gemma 4 sont publiés sous licence Apache 2.0, ce qui signifie que vous pouvez les télécharger, les utiliser, les modifier et les redistribuer librement à toute fin — y compris pour des applications commerciales.

Sources de téléchargement officielles

Hugging Face

La plateforme principale pour les poids du modèle Gemma 4. Propose toutes les variantes dans plusieurs formats incluant SafeTensors, GGUF et les versions quantifiées GPTQ. Prend en charge les téléchargements basés sur git, le CLI Hugging Face et les téléchargements directs via navigateur.

• Toutes les variantes et tailles de modèles
• Plusieurs formats de quantification
• Téléchargements Git LFS et CLI
• Quantifications contribuées par la communauté
• Cartes de modèle avec documentation

Kaggle

La plateforme de data science de Google héberge les poids officiels du modèle Gemma 4. Pratique pour les utilisateurs déjà dans l'écosystème Kaggle, avec intégration de notebooks pour une expérimentation rapide.

• Distribution officielle Google
• Intégration de notebooks
• Suivi des versions
• Téléchargement direct
• downloadGuide.sources.kaggle.features.4

Bibliothèque Ollama

Modèles Gemma 4 préemballés et optimisés pour l'inférence locale avec Ollama. Téléchargement et exécution en une seule commande. Les modèles sont automatiquement quantifiés et optimisés pour votre matériel.

• Installation en une commande
• Auto-optimisé pour votre matériel
• Toutes les variantes disponibles
• Mises à jour automatiques
• downloadGuide.sources.ollama.features.4

ModelScope (魔搭社区)

Plateforme d'hébergement de modèles basée en Chine avec des vitesses de téléchargement rapides pour les utilisateurs en Asie. Reflète les modèles officiels Gemma 4 avec une documentation complète en chinois.

• Téléchargements rapides en Chine/Asie
• Documentation en chinois
• Téléchargements basés sur git
• Modèles communautaires
• downloadGuide.sources.modelscope.features.4

Guide des formats de modèle

Comprendre les différents formats de fichiers de modèle disponibles pour Gemma 4 :

SafeTensors (.safetensors)

Le format par défaut sur Hugging Face. Tenseurs sûrs et à chargement rapide conçus pour empêcher les vulnérabilités d'exécution de code. Utilisé avec Hugging Face Transformers, vLLM et d'autres frameworks basés sur Python.

Recherche, affinage, frameworks Python, service vLLM

GGUF (.gguf)

Le format standard pour llama.cpp et Ollama. Prend en charge divers niveaux de quantification (Q4, Q5, Q8, etc.) pour réduire la taille du modèle et les besoins en mémoire. Optimisé pour l'inférence CPU et CPU/GPU mixte.

Inférence locale, Ollama, llama.cpp, KoboldCpp, LM Studio

GPTQ

Format de quantification optimisé pour GPU qui maintient une haute précision tout en réduisant considérablement les besoins en VRAM. Disponible via les contributions de la communauté sur Hugging Face.

Inférence GPU avec VRAM réduite, service en production

Format MLX

Le format ML natif d'Apple optimisé pour Apple Silicon (M1/M2/M3/M4). Tire parti de l'architecture de mémoire unifiée pour une inférence efficace sur le matériel Mac.

Mac avec Apple Silicon, framework MLX

Guide de quantification

La quantification réduit la taille du modèle et l'utilisation de la mémoire au prix d'une certaine précision. Voici comment les différents niveaux se comparent pour Gemma 4 :

Format	Bits	Quality	Notes
BF16 / FP16 (pleine précision)	16 bits	100%	Qualité de modèle complète sans perte de précision. Nécessite le plus de VRAM et d'espace disque.
INT8 / Q8	8 bits	~98-99%	Perte de qualité minimale. Réduit de moitié les besoins en VRAM par rapport à FP16. Recommandé pour la plupart des déploiements GPU.
Q5_K_M	5 bits	~95-97%	Bon équilibre entre qualité et taille. Choix populaire pour l'inférence locale au format GGUF.
INT4 / Q4_K_M	4 bits	~93-95%	Réduction significative de la taille avec une qualité acceptable pour la plupart des cas d'utilisation. Permet d'exécuter des modèles plus grands sur du matériel grand public.

Téléchargement via la ligne de commande

CLI Hugging Face

Installez le CLI Hugging Face et téléchargez les modèles directement :

pip install huggingface_hub

# Download a specific model
huggingface-cli download google/gemma-4-31b

# Download GGUF quantized version
huggingface-cli download google/gemma-4-31b-GGUF \
  --include "gemma-4-31b-Q4_K_M.gguf"

Git LFS

Cloner les dépôts de modèles avec Git Large File Storage :

git lfs install
git clone https://huggingface.co/google/gemma-4-31b

CLI Ollama

Récupérer les modèles directement dans Ollama :

# Pull any variant
ollama pull gemma4:e4b
ollama pull gemma4:31b
ollama pull gemma4:26b

FAQ téléchargement

Où est le meilleur endroit pour télécharger Gemma 4 ?

Hugging Face est la source la plus complète avec tous les formats et variantes. Pour une configuration locale en une commande, utilisez Ollama. Pour les utilisateurs en Chine, ModelScope offre des vitesses de téléchargement plus rapides.

Quel format dois-je télécharger ?

Pour Ollama ou llama.cpp : téléchargez les fichiers GGUF. Pour Python/vLLM : utilisez le format SafeTensors. Pour Mac avec Apple Silicon : utilisez le format MLX. En cas de doute, commencez avec Ollama qui gère automatiquement la sélection du format.

Quelle est la taille des fichiers du modèle Gemma 4 ?

Tailles en pleine précision : E2B (~4 Go), E4B (~8 Go), 26B MoE (~52 Go), 31B Dense (~62 Go). Les versions quantifiées Q4 sont environ 4x plus petites. Les téléchargements par défaut d'Ollama utilisent une quantification optimisée.

Ai-je besoin d'un compte Hugging Face pour télécharger ?

Non. Les modèles Gemma 4 sont accessibles publiquement sous licence Apache 2.0. Vous pouvez télécharger sans compte, bien qu'en avoir un permette des téléchargements plus rapides et un accès au CLI Hugging Face.

Qu'est-ce qu'un fichier GGUF ?

GGUF (GPT-Generated Unified Format) est un format binaire conçu pour une inférence locale efficace avec llama.cpp et Ollama. Il prend en charge divers niveaux de quantification, vous permettant d'échanger précision contre tailles de fichiers plus petites et utilisation de mémoire moindre.

Puis-je télécharger Gemma 4 en Chine ?

Oui. ModelScope (魔搭社区) reflète les modèles Gemma 4 avec des vitesses de téléchargement rapides en Chine. Alternativement, utilisez un miroir ou un proxy pour les téléchargements Hugging Face.

downloadGuide.faq.items.6.q

downloadGuide.faq.items.6.a

downloadGuide.faq.items.7.q

downloadGuide.faq.items.7.a

downloadGuide.faq.items.8.q

downloadGuide.faq.items.8.a

downloadGuide.faq.items.9.q

downloadGuide.faq.items.9.a

Télécharger et déployer

Obtenez les poids du modèle Gemma 4 et commencez à déployer. Consultez notre guide de déploiement pour des instructions de configuration étape par étape.

Guide de déploiement Comparer les modèles Essayer en ligne d'abord