Gemma 4

Télécharger Gemma 4 GGUF et les poids du modèle depuis Hugging Face

Les poids du modèle Gemma 4 sont disponibles gratuitement sur Hugging Face, Kaggle, Ollama et ModelScope. Ce guide couvre toutes les variantes — E2B, E4B, 26B MoE et 31B Dense — et tous les formats : SafeTensors en pleine précision, GGUF quantifié (Q4 / Q5 / Q8), GPTQ et MLX — avec des liens de téléchargement directs et les tailles de fichiers.

Tous les modèles Gemma 4 sont publiés sous licence Apache 2.0, ce qui signifie que vous pouvez les télécharger, les utiliser, les modifier et les redistribuer librement à toute fin — y compris pour des applications commerciales.

Tailles de téléchargement Gemma 4 GGUF sur Hugging Face

Tailles de fichiers réelles lues depuis les dépôts Gemma 4 GGUF officiels d'unsloth sur Hugging Face — l'éditeur GGUF Gemma 4 le plus téléchargé. Cliquez sur un chemin de dépôt pour afficher sa liste de fichiers.

ModèleParamètres totauxQ4_K_MQ5_K_MQ8_0BF16Dépôt Hugging Face
Gemma 4 E2B-it5B3.11 GB3.36 GB5.05 GB9.31 GBunsloth/gemma-4-E2B-it-GGUF
Gemma 4 E4B-it8B4.98 GB5.48 GB8.19 GB15.1 GBunsloth/gemma-4-E4B-it-GGUF
Gemma 4 26B-A4B-it27B (MoE, 4B actif)16.9 GB21.2 GB26.9 GBunsloth/gemma-4-26B-A4B-it-GGUF
Gemma 4 31B-it33B (Dense)18.3 GB21.7 GB32.6 GBunsloth/gemma-4-31B-it-GGUF

Tailles vérifiées le 2026-04-21 depuis les dépôts unsloth sur Hugging Face. Pour SafeTensors en pleine précision, utilisez les dépôts officiels google/gemma-4-E2B, -E4B, -26B-A4B et -31B (avec le suffixe -it pour la version instruction-tuned). Les fichiers Q4 / Q5 du 26B-A4B publiés par unsloth sont des variantes Unsloth Dynamic (UD) dans la classe de taille Q4_K_M / Q5_K_M.

Sources de téléchargement officielles

Hugging Face

La plateforme principale pour les poids du modèle Gemma 4. Propose toutes les variantes dans plusieurs formats incluant SafeTensors, GGUF et les versions quantifiées GPTQ. Prend en charge les téléchargements basés sur git, le CLI Hugging Face et les téléchargements directs via navigateur.

  • Toutes les variantes et tailles de modèles
  • Plusieurs formats de quantification
  • Téléchargements Git LFS et CLI
  • Quantifications contribuées par la communauté
  • Cartes de modèle avec documentation

Kaggle

La plateforme de data science de Google héberge les poids officiels du modèle Gemma 4. Pratique pour les utilisateurs déjà dans l'écosystème Kaggle, avec intégration de notebooks pour une expérimentation rapide.

  • Distribution officielle Google
  • Intégration de notebooks
  • Suivi des versions
  • Téléchargement direct

Bibliothèque Ollama

Modèles Gemma 4 préemballés et optimisés pour l'inférence locale avec Ollama. Téléchargement et exécution en une seule commande. Les modèles sont automatiquement quantifiés et optimisés pour votre matériel.

  • Installation en une commande
  • Auto-optimisé pour votre matériel
  • Toutes les variantes disponibles
  • Mises à jour automatiques

ModelScope (魔搭社区)

Plateforme d'hébergement de modèles basée en Chine avec des vitesses de téléchargement rapides pour les utilisateurs en Asie. Reflète les modèles officiels Gemma 4 avec une documentation complète en chinois.

  • Téléchargements rapides en Chine/Asie
  • Documentation en chinois
  • Téléchargements basés sur git
  • Modèles communautaires

Guide des formats de modèle

Comprendre les différents formats de fichiers de modèle disponibles pour Gemma 4 :

SafeTensors (.safetensors)

Le format par défaut sur Hugging Face. Tenseurs sûrs et à chargement rapide conçus pour empêcher les vulnérabilités d'exécution de code. Utilisé avec Hugging Face Transformers, vLLM et d'autres frameworks basés sur Python.

Recherche, affinage, frameworks Python, service vLLM

GGUF (.gguf)

Le format standard pour llama.cpp et Ollama. Prend en charge divers niveaux de quantification (Q4, Q5, Q8, etc.) pour réduire la taille du modèle et les besoins en mémoire. Optimisé pour l'inférence CPU et CPU/GPU mixte.

Inférence locale, Ollama, llama.cpp, KoboldCpp, LM Studio

GPTQ

Format de quantification optimisé pour GPU qui maintient une haute précision tout en réduisant considérablement les besoins en VRAM. Disponible via les contributions de la communauté sur Hugging Face.

Inférence GPU avec VRAM réduite, service en production

Format MLX

Le format ML natif d'Apple optimisé pour Apple Silicon (M1/M2/M3/M4). Tire parti de l'architecture de mémoire unifiée pour une inférence efficace sur le matériel Mac.

Mac avec Apple Silicon, framework MLX

Guide de quantification

La quantification réduit la taille du modèle et l'utilisation de la mémoire au prix d'une certaine précision. Voici comment les différents niveaux se comparent pour Gemma 4 :

FormatBitsQualityNotes
BF16 / FP16 (pleine précision)16 bits100%Qualité de modèle complète sans perte de précision. Nécessite le plus de VRAM et d'espace disque.
INT8 / Q88 bits~98-99%Perte de qualité minimale. Réduit de moitié les besoins en VRAM par rapport à FP16. Recommandé pour la plupart des déploiements GPU.
Q5_K_M5 bits~95-97%Bon équilibre entre qualité et taille. Choix populaire pour l'inférence locale au format GGUF.
INT4 / Q4_K_M4 bits~93-95%Réduction significative de la taille avec une qualité acceptable pour la plupart des cas d'utilisation. Permet d'exécuter des modèles plus grands sur du matériel grand public.

Téléchargement via la ligne de commande

CLI Hugging Face

Installez le CLI Hugging Face et téléchargez les modèles directement :

pip install huggingface_hub

# Full-precision SafeTensors (official Google repo)
huggingface-cli download google/gemma-4-31B-it

# GGUF quantized (community, unsloth — most downloaded)
huggingface-cli download unsloth/gemma-4-31B-it-GGUF \
  --include "gemma-4-31B-it-Q4_K_M.gguf"

Git LFS

Cloner les dépôts de modèles avec Git Large File Storage :

git lfs install
git clone https://huggingface.co/google/gemma-4-31B-it

CLI Ollama

Récupérer les modèles directement dans Ollama :

# Pull any variant
ollama pull gemma4:e2b
ollama pull gemma4:e4b
ollama pull gemma4:26b
ollama pull gemma4:31b

FAQ téléchargement

Où est le meilleur endroit pour télécharger Gemma 4 ?

Hugging Face est la source la plus complète avec tous les formats et variantes. Pour une configuration locale en une commande, utilisez Ollama. Pour les utilisateurs en Chine, ModelScope offre des vitesses de téléchargement plus rapides.

Quel format dois-je télécharger ?

Pour Ollama ou llama.cpp : téléchargez les fichiers GGUF. Pour Python/vLLM : utilisez le format SafeTensors. Pour Mac avec Apple Silicon : utilisez le format MLX. En cas de doute, commencez avec Ollama qui gère automatiquement la sélection du format.

Quelle est la taille des fichiers du modèle Gemma 4 ?

Tailles en pleine précision : E2B (~4 Go), E4B (~8 Go), 26B MoE (~52 Go), 31B Dense (~62 Go). Les versions quantifiées Q4 sont environ 4x plus petites. Les téléchargements par défaut d'Ollama utilisent une quantification optimisée.

Ai-je besoin d'un compte Hugging Face pour télécharger ?

Non. Les modèles Gemma 4 sont accessibles publiquement sous licence Apache 2.0. Vous pouvez télécharger sans compte, bien qu'en avoir un permette des téléchargements plus rapides et un accès au CLI Hugging Face.

Qu'est-ce qu'un fichier GGUF ?

GGUF (GPT-Generated Unified Format) est un format binaire conçu pour une inférence locale efficace avec llama.cpp et Ollama. Il prend en charge divers niveaux de quantification, vous permettant d'échanger précision contre tailles de fichiers plus petites et utilisation de mémoire moindre.

Puis-je télécharger Gemma 4 en Chine ?

Oui. ModelScope (魔搭社区) reflète les modèles Gemma 4 avec des vitesses de téléchargement rapides en Chine. Alternativement, utilisez un miroir ou un proxy pour les téléchargements Hugging Face.

Télécharger et déployer

Obtenez les poids du modèle Gemma 4 et commencez à déployer. Consultez notre guide de déploiement pour des instructions de configuration étape par étape.