Gemma 4

Gemma 4 GGUF & Modellgewichte von Hugging Face herunterladen

Gemma 4 Modellgewichte sind kostenlos von Hugging Face, Kaggle, Ollama und ModelScope erhältlich. Dieser Leitfaden deckt alle Varianten — E2B, E4B, 26B MoE und 31B Dense — und alle Formate ab: SafeTensors in voller Präzision, quantisiertes GGUF (Q4 / Q5 / Q8), GPTQ und MLX — mit direkten Download-Links und Dateigrößen.

Alle Gemma 4 Modelle werden unter der Apache 2.0 Lizenz veröffentlicht. Das bedeutet, Sie können sie frei für jeden Zweck herunterladen, nutzen, modifizieren und weitergeben — auch für kommerzielle Anwendungen.

Gemma 4 GGUF Download-Größen auf Hugging Face

Echte Dateigrößen aus den offiziellen Gemma 4 GGUF Repositories von unsloth auf Hugging Face — dem meist-heruntergeladenen Gemma 4 GGUF-Publisher. Klicken Sie auf einen Repo-Pfad, um die Dateiliste zu öffnen.

ModellGesamtparameterQ4_K_MQ5_K_MQ8_0BF16Hugging Face Repo
Gemma 4 E2B-it5B3.11 GB3.36 GB5.05 GB9.31 GBunsloth/gemma-4-E2B-it-GGUF
Gemma 4 E4B-it8B4.98 GB5.48 GB8.19 GB15.1 GBunsloth/gemma-4-E4B-it-GGUF
Gemma 4 26B-A4B-it27B (MoE, 4B aktiv)16.9 GB21.2 GB26.9 GBunsloth/gemma-4-26B-A4B-it-GGUF
Gemma 4 31B-it33B (Dense)18.3 GB21.7 GB32.6 GBunsloth/gemma-4-31B-it-GGUF

Größen am 2026-04-21 aus unsloths Hugging Face Repos verifiziert. Für SafeTensors in voller Präzision nutzen Sie die offiziellen google/gemma-4-E2B, -E4B, -26B-A4B und -31B Repos (mit -it für die instruction-tuned Version). Die Q4 / Q5 Dateien für 26B-A4B von unsloth sind Unsloth Dynamic (UD) Varianten in der Größenklasse Q4_K_M / Q5_K_M.

Leitfaden zu Modellformaten

Die verschiedenen Modelldateiformate, die für Gemma 4 verfügbar sind, verstehen:

SafeTensors (.safetensors)

Das Standardformat auf Hugging Face. Sichere, schnell ladbare Tensoren, entwickelt, um Code-Execution-Schwachstellen zu verhindern. Wird mit Hugging Face Transformers, vLLM und anderen Python-basierten Frameworks verwendet.

Forschung, Fine-Tuning, Python-Frameworks, vLLM-Serving

GGUF (.gguf)

Das Standardformat für llama.cpp und Ollama. Unterstützt verschiedene Quantisierungsstufen (Q4, Q5, Q8 usw.), um Modellgröße und Speicheranforderungen zu reduzieren. Optimiert für CPU- und gemischte CPU/GPU-Inferenz.

Lokale Inferenz, Ollama, llama.cpp, KoboldCpp, LM Studio

GPTQ

GPU-optimiertes Quantisierungsformat, das hohe Genauigkeit beibehält und gleichzeitig die VRAM-Anforderungen deutlich reduziert. Verfügbar über Community-Beiträge auf Hugging Face.

GPU-Inferenz mit reduziertem VRAM, Production-Serving

MLX-Format

Apples natives ML-Format, optimiert für Apple Silicon (M1/M2/M3/M4). Nutzt die Unified-Memory-Architektur für effiziente Inferenz auf Mac-Hardware.

Mac mit Apple Silicon, MLX-Framework

Quantisierungsleitfaden

Quantisierung reduziert Modellgröße und Speicherverbrauch auf Kosten etwas geringerer Genauigkeit. So vergleichen sich die verschiedenen Stufen für Gemma 4:

FormatBitsQualityNotes
BF16 / FP16 (Volle Präzision)16-bit100%Volle Modellqualität ohne Genauigkeitsverlust. Benötigt den meisten VRAM und Speicherplatz.
INT8 / Q88-bit~98-99%Minimaler Qualitätsverlust. Halbiert VRAM-Anforderungen gegenüber FP16. Empfohlen für die meisten GPU-Deployments.
Q5_K_M5-bit~95-97%Gute Balance zwischen Qualität und Größe. Beliebte Wahl für lokale Inferenz im GGUF-Format.
INT4 / Q4_K_M4-bit~93-95%Deutliche Größenreduktion bei akzeptabler Qualität für die meisten Anwendungsfälle. Ermöglicht das Ausführen größerer Modelle auf Consumer-Hardware.

Über die Kommandozeile herunterladen

Hugging Face CLI

Installieren Sie die Hugging Face CLI und laden Sie Modelle direkt herunter:

pip install huggingface_hub

# Full-precision SafeTensors (official Google repo)
huggingface-cli download google/gemma-4-31B-it

# GGUF quantized (community, unsloth — most downloaded)
huggingface-cli download unsloth/gemma-4-31B-it-GGUF \
  --include "gemma-4-31B-it-Q4_K_M.gguf"

Git LFS

Klonen Sie Modell-Repositories mit Git Large File Storage:

git lfs install
git clone https://huggingface.co/google/gemma-4-31B-it

Ollama CLI

Modelle direkt in Ollama pullen:

# Pull any variant
ollama pull gemma4:e2b
ollama pull gemma4:e4b
ollama pull gemma4:26b
ollama pull gemma4:31b

Download-FAQ

Wo ist der beste Ort, um Gemma 4 herunterzuladen?

Hugging Face ist die umfassendste Quelle mit allen Formaten und Varianten. Für Ein-Befehl-Setup nutzen Sie Ollama. Für Nutzer in China bietet ModelScope schnellere Download-Geschwindigkeiten.

Welches Format sollte ich herunterladen?

Für Ollama oder llama.cpp: GGUF-Dateien. Für Python/vLLM: SafeTensors-Format. Für Mac mit Apple Silicon: MLX-Format. Im Zweifelsfall beginnen Sie mit Ollama, das die Formatauswahl automatisch übernimmt.

Wie groß sind Gemma 4 Modelldateien?

Full-Precision-Größen: E2B (~4GB), E4B (~8GB), 26B MoE (~52GB), 31B Dense (~62GB). Q4-quantisierte Versionen sind etwa 4-mal kleiner. Ollamas Standard-Downloads nutzen optimierte Quantisierung.

Brauche ich einen Hugging Face Account zum Herunterladen?

Nein. Gemma 4 Modelle sind unter der Apache 2.0 Lizenz öffentlich zugänglich. Sie können ohne Account herunterladen, ein Account ermöglicht jedoch schnellere Downloads und Zugriff auf die Hugging Face CLI.

Was ist eine GGUF-Datei?

GGUF (GPT-Generated Unified Format) ist ein Binärformat für effiziente lokale Inferenz mit llama.cpp und Ollama. Es unterstützt verschiedene Quantisierungsstufen, sodass Sie Genauigkeit gegen kleinere Dateigrößen und geringeren Speicherverbrauch eintauschen können.

Kann ich Gemma 4 in China herunterladen?

Ja. ModelScope (魔搭社区) spiegelt Gemma 4 Modelle mit schnellen Download-Geschwindigkeiten innerhalb Chinas. Alternativ verwenden Sie einen Mirror oder Proxy für Hugging Face Downloads.

Herunterladen und bereitstellen

Holen Sie sich die Gemma 4 Modellgewichte und starten Sie das Deployment. Schauen Sie in unseren Deployment-Leitfaden für Schritt-für-Schritt-Anweisungen.