Gemma 4 GGUF & Modellgewichte von Hugging Face herunterladen
Gemma 4 Modellgewichte sind kostenlos von Hugging Face, Kaggle, Ollama und ModelScope erhältlich. Dieser Leitfaden deckt alle Varianten — E2B, E4B, 26B MoE und 31B Dense — und alle Formate ab: SafeTensors in voller Präzision, quantisiertes GGUF (Q4 / Q5 / Q8), GPTQ und MLX — mit direkten Download-Links und Dateigrößen.
Alle Gemma 4 Modelle werden unter der Apache 2.0 Lizenz veröffentlicht. Das bedeutet, Sie können sie frei für jeden Zweck herunterladen, nutzen, modifizieren und weitergeben — auch für kommerzielle Anwendungen.
Gemma 4 GGUF Download-Größen auf Hugging Face
Echte Dateigrößen aus den offiziellen Gemma 4 GGUF Repositories von unsloth auf Hugging Face — dem meist-heruntergeladenen Gemma 4 GGUF-Publisher. Klicken Sie auf einen Repo-Pfad, um die Dateiliste zu öffnen.
| Modell | Gesamtparameter | Q4_K_M | Q5_K_M | Q8_0 | BF16 | Hugging Face Repo |
|---|---|---|---|---|---|---|
| Gemma 4 E2B-it | 5B | 3.11 GB | 3.36 GB | 5.05 GB | 9.31 GB | unsloth/gemma-4-E2B-it-GGUF |
| Gemma 4 E4B-it | 8B | 4.98 GB | 5.48 GB | 8.19 GB | 15.1 GB | unsloth/gemma-4-E4B-it-GGUF |
| Gemma 4 26B-A4B-it | 27B (MoE, 4B aktiv) | 16.9 GB | 21.2 GB | 26.9 GB | — | unsloth/gemma-4-26B-A4B-it-GGUF |
| Gemma 4 31B-it | 33B (Dense) | 18.3 GB | 21.7 GB | 32.6 GB | — | unsloth/gemma-4-31B-it-GGUF |
Größen am 2026-04-21 aus unsloths Hugging Face Repos verifiziert. Für SafeTensors in voller Präzision nutzen Sie die offiziellen google/gemma-4-E2B, -E4B, -26B-A4B und -31B Repos (mit -it für die instruction-tuned Version). Die Q4 / Q5 Dateien für 26B-A4B von unsloth sind Unsloth Dynamic (UD) Varianten in der Größenklasse Q4_K_M / Q5_K_M.
Offizielle Download-Quellen
Hugging Face
Die primäre Plattform für Gemma 4 Modellgewichte. Bietet alle Varianten in mehreren Formaten, darunter SafeTensors, GGUF und GPTQ-quantisierte Versionen. Unterstützt Git-basierte Downloads, die Hugging Face CLI und direkte Browser-Downloads.
- • Alle Modellvarianten und Größen
- • Mehrere Quantisierungsformate
- • Git LFS und CLI-Downloads
- • Community-bereitgestellte Quantisierungen
- • Model Cards mit Dokumentation
Kaggle
Googles Data-Science-Plattform hostet die offiziellen Gemma 4 Modellgewichte. Praktisch für Nutzer, die bereits im Kaggle-Ökosystem arbeiten, mit Notebook-Integration für schnelles Experimentieren.
- • Offizielle Google-Distribution
- • Notebook-Integration
- • Versions-Tracking
- • Direkter Download
Ollama Library
Vorgepackte Gemma 4 Modelle, optimiert für lokale Inferenz mit Ollama. Download und Ausführung mit einem Befehl. Modelle werden automatisch für Ihre Hardware quantisiert und optimiert.
- • Ein-Befehl-Installation
- • Automatisch für Ihre Hardware optimiert
- • Alle Varianten verfügbar
- • Automatische Updates
ModelScope (魔搭社区)
In China ansässige Modell-Hosting-Plattform mit schnellen Download-Geschwindigkeiten für Nutzer in Asien. Spiegelt die offiziellen Gemma 4 Modelle mit vollständiger Dokumentation auf Chinesisch.
- • Schnelle Downloads in China/Asien
- • Chinesische Dokumentation
- • Git-basierte Downloads
- • Community-Modelle
Leitfaden zu Modellformaten
Die verschiedenen Modelldateiformate, die für Gemma 4 verfügbar sind, verstehen:
SafeTensors (.safetensors)
Das Standardformat auf Hugging Face. Sichere, schnell ladbare Tensoren, entwickelt, um Code-Execution-Schwachstellen zu verhindern. Wird mit Hugging Face Transformers, vLLM und anderen Python-basierten Frameworks verwendet.
Forschung, Fine-Tuning, Python-Frameworks, vLLM-Serving
GGUF (.gguf)
Das Standardformat für llama.cpp und Ollama. Unterstützt verschiedene Quantisierungsstufen (Q4, Q5, Q8 usw.), um Modellgröße und Speicheranforderungen zu reduzieren. Optimiert für CPU- und gemischte CPU/GPU-Inferenz.
Lokale Inferenz, Ollama, llama.cpp, KoboldCpp, LM Studio
GPTQ
GPU-optimiertes Quantisierungsformat, das hohe Genauigkeit beibehält und gleichzeitig die VRAM-Anforderungen deutlich reduziert. Verfügbar über Community-Beiträge auf Hugging Face.
GPU-Inferenz mit reduziertem VRAM, Production-Serving
MLX-Format
Apples natives ML-Format, optimiert für Apple Silicon (M1/M2/M3/M4). Nutzt die Unified-Memory-Architektur für effiziente Inferenz auf Mac-Hardware.
Mac mit Apple Silicon, MLX-Framework
Quantisierungsleitfaden
Quantisierung reduziert Modellgröße und Speicherverbrauch auf Kosten etwas geringerer Genauigkeit. So vergleichen sich die verschiedenen Stufen für Gemma 4:
| Format | Bits | Quality | Notes |
|---|---|---|---|
| BF16 / FP16 (Volle Präzision) | 16-bit | 100% | Volle Modellqualität ohne Genauigkeitsverlust. Benötigt den meisten VRAM und Speicherplatz. |
| INT8 / Q8 | 8-bit | ~98-99% | Minimaler Qualitätsverlust. Halbiert VRAM-Anforderungen gegenüber FP16. Empfohlen für die meisten GPU-Deployments. |
| Q5_K_M | 5-bit | ~95-97% | Gute Balance zwischen Qualität und Größe. Beliebte Wahl für lokale Inferenz im GGUF-Format. |
| INT4 / Q4_K_M | 4-bit | ~93-95% | Deutliche Größenreduktion bei akzeptabler Qualität für die meisten Anwendungsfälle. Ermöglicht das Ausführen größerer Modelle auf Consumer-Hardware. |
Über die Kommandozeile herunterladen
Hugging Face CLI
Installieren Sie die Hugging Face CLI und laden Sie Modelle direkt herunter:
pip install huggingface_hub
# Full-precision SafeTensors (official Google repo)
huggingface-cli download google/gemma-4-31B-it
# GGUF quantized (community, unsloth — most downloaded)
huggingface-cli download unsloth/gemma-4-31B-it-GGUF \
--include "gemma-4-31B-it-Q4_K_M.gguf"Git LFS
Klonen Sie Modell-Repositories mit Git Large File Storage:
git lfs install
git clone https://huggingface.co/google/gemma-4-31B-itOllama CLI
Modelle direkt in Ollama pullen:
# Pull any variant
ollama pull gemma4:e2b
ollama pull gemma4:e4b
ollama pull gemma4:26b
ollama pull gemma4:31bDownload-FAQ
Wo ist der beste Ort, um Gemma 4 herunterzuladen?
Hugging Face ist die umfassendste Quelle mit allen Formaten und Varianten. Für Ein-Befehl-Setup nutzen Sie Ollama. Für Nutzer in China bietet ModelScope schnellere Download-Geschwindigkeiten.
Welches Format sollte ich herunterladen?
Für Ollama oder llama.cpp: GGUF-Dateien. Für Python/vLLM: SafeTensors-Format. Für Mac mit Apple Silicon: MLX-Format. Im Zweifelsfall beginnen Sie mit Ollama, das die Formatauswahl automatisch übernimmt.
Wie groß sind Gemma 4 Modelldateien?
Full-Precision-Größen: E2B (~4GB), E4B (~8GB), 26B MoE (~52GB), 31B Dense (~62GB). Q4-quantisierte Versionen sind etwa 4-mal kleiner. Ollamas Standard-Downloads nutzen optimierte Quantisierung.
Brauche ich einen Hugging Face Account zum Herunterladen?
Nein. Gemma 4 Modelle sind unter der Apache 2.0 Lizenz öffentlich zugänglich. Sie können ohne Account herunterladen, ein Account ermöglicht jedoch schnellere Downloads und Zugriff auf die Hugging Face CLI.
Was ist eine GGUF-Datei?
GGUF (GPT-Generated Unified Format) ist ein Binärformat für effiziente lokale Inferenz mit llama.cpp und Ollama. Es unterstützt verschiedene Quantisierungsstufen, sodass Sie Genauigkeit gegen kleinere Dateigrößen und geringeren Speicherverbrauch eintauschen können.
Kann ich Gemma 4 in China herunterladen?
Ja. ModelScope (魔搭社区) spiegelt Gemma 4 Modelle mit schnellen Download-Geschwindigkeiten innerhalb Chinas. Alternativ verwenden Sie einen Mirror oder Proxy für Hugging Face Downloads.
Herunterladen und bereitstellen
Holen Sie sich die Gemma 4 Modellgewichte und starten Sie das Deployment. Schauen Sie in unseren Deployment-Leitfaden für Schritt-für-Schritt-Anweisungen.