Gemma 4 Modelle herunterladen

Gemma 4 Modellgewichte sind kostenlos von mehreren offiziellen Quellen erhältlich. Ob Sie Full-Precision-Gewichte für Forschung, quantisierte GGUF-Dateien für lokale Inferenz oder vorgepackte Modelle für Ollama benötigen — dieser Leitfaden deckt jede Download-Option ab.

Alle Gemma 4 Modelle werden unter der Apache 2.0 Lizenz veröffentlicht. Das bedeutet, Sie können sie frei für jeden Zweck herunterladen, nutzen, modifizieren und weitergeben — auch für kommerzielle Anwendungen.

Offizielle Download-Quellen

Hugging Face

Die primäre Plattform für Gemma 4 Modellgewichte. Bietet alle Varianten in mehreren Formaten, darunter SafeTensors, GGUF und GPTQ-quantisierte Versionen. Unterstützt Git-basierte Downloads, die Hugging Face CLI und direkte Browser-Downloads.

• Alle Modellvarianten und Größen
• Mehrere Quantisierungsformate
• Git LFS und CLI-Downloads
• Community-bereitgestellte Quantisierungen
• Model Cards mit Dokumentation

Kaggle

Googles Data-Science-Plattform hostet die offiziellen Gemma 4 Modellgewichte. Praktisch für Nutzer, die bereits im Kaggle-Ökosystem arbeiten, mit Notebook-Integration für schnelles Experimentieren.

• Offizielle Google-Distribution
• Notebook-Integration
• Versions-Tracking
• Direkter Download
• downloadGuide.sources.kaggle.features.4

Ollama Library

Vorgepackte Gemma 4 Modelle, optimiert für lokale Inferenz mit Ollama. Download und Ausführung mit einem Befehl. Modelle werden automatisch für Ihre Hardware quantisiert und optimiert.

• Ein-Befehl-Installation
• Automatisch für Ihre Hardware optimiert
• Alle Varianten verfügbar
• Automatische Updates
• downloadGuide.sources.ollama.features.4

ModelScope (魔搭社区)

In China ansässige Modell-Hosting-Plattform mit schnellen Download-Geschwindigkeiten für Nutzer in Asien. Spiegelt die offiziellen Gemma 4 Modelle mit vollständiger Dokumentation auf Chinesisch.

• Schnelle Downloads in China/Asien
• Chinesische Dokumentation
• Git-basierte Downloads
• Community-Modelle
• downloadGuide.sources.modelscope.features.4

Leitfaden zu Modellformaten

Die verschiedenen Modelldateiformate, die für Gemma 4 verfügbar sind, verstehen:

SafeTensors (.safetensors)

Das Standardformat auf Hugging Face. Sichere, schnell ladbare Tensoren, entwickelt, um Code-Execution-Schwachstellen zu verhindern. Wird mit Hugging Face Transformers, vLLM und anderen Python-basierten Frameworks verwendet.

Forschung, Fine-Tuning, Python-Frameworks, vLLM-Serving

GGUF (.gguf)

Das Standardformat für llama.cpp und Ollama. Unterstützt verschiedene Quantisierungsstufen (Q4, Q5, Q8 usw.), um Modellgröße und Speicheranforderungen zu reduzieren. Optimiert für CPU- und gemischte CPU/GPU-Inferenz.

Lokale Inferenz, Ollama, llama.cpp, KoboldCpp, LM Studio

GPTQ

GPU-optimiertes Quantisierungsformat, das hohe Genauigkeit beibehält und gleichzeitig die VRAM-Anforderungen deutlich reduziert. Verfügbar über Community-Beiträge auf Hugging Face.

GPU-Inferenz mit reduziertem VRAM, Production-Serving

MLX-Format

Apples natives ML-Format, optimiert für Apple Silicon (M1/M2/M3/M4). Nutzt die Unified-Memory-Architektur für effiziente Inferenz auf Mac-Hardware.

Mac mit Apple Silicon, MLX-Framework

Quantisierungsleitfaden

Quantisierung reduziert Modellgröße und Speicherverbrauch auf Kosten etwas geringerer Genauigkeit. So vergleichen sich die verschiedenen Stufen für Gemma 4:

Format	Bits	Quality	Notes
BF16 / FP16 (Volle Präzision)	16-bit	100%	Volle Modellqualität ohne Genauigkeitsverlust. Benötigt den meisten VRAM und Speicherplatz.
INT8 / Q8	8-bit	~98-99%	Minimaler Qualitätsverlust. Halbiert VRAM-Anforderungen gegenüber FP16. Empfohlen für die meisten GPU-Deployments.
Q5_K_M	5-bit	~95-97%	Gute Balance zwischen Qualität und Größe. Beliebte Wahl für lokale Inferenz im GGUF-Format.
INT4 / Q4_K_M	4-bit	~93-95%	Deutliche Größenreduktion bei akzeptabler Qualität für die meisten Anwendungsfälle. Ermöglicht das Ausführen größerer Modelle auf Consumer-Hardware.

Über die Kommandozeile herunterladen

Hugging Face CLI

Installieren Sie die Hugging Face CLI und laden Sie Modelle direkt herunter:

pip install huggingface_hub

# Download a specific model
huggingface-cli download google/gemma-4-31b

# Download GGUF quantized version
huggingface-cli download google/gemma-4-31b-GGUF \
  --include "gemma-4-31b-Q4_K_M.gguf"

Git LFS

Klonen Sie Modell-Repositories mit Git Large File Storage:

git lfs install
git clone https://huggingface.co/google/gemma-4-31b

Ollama CLI

Modelle direkt in Ollama pullen:

# Pull any variant
ollama pull gemma4:e4b
ollama pull gemma4:31b
ollama pull gemma4:26b

Download-FAQ

Wo ist der beste Ort, um Gemma 4 herunterzuladen?

Hugging Face ist die umfassendste Quelle mit allen Formaten und Varianten. Für Ein-Befehl-Setup nutzen Sie Ollama. Für Nutzer in China bietet ModelScope schnellere Download-Geschwindigkeiten.

Welches Format sollte ich herunterladen?

Für Ollama oder llama.cpp: GGUF-Dateien. Für Python/vLLM: SafeTensors-Format. Für Mac mit Apple Silicon: MLX-Format. Im Zweifelsfall beginnen Sie mit Ollama, das die Formatauswahl automatisch übernimmt.

Wie groß sind Gemma 4 Modelldateien?

Full-Precision-Größen: E2B (~4GB), E4B (~8GB), 26B MoE (~52GB), 31B Dense (~62GB). Q4-quantisierte Versionen sind etwa 4-mal kleiner. Ollamas Standard-Downloads nutzen optimierte Quantisierung.

Brauche ich einen Hugging Face Account zum Herunterladen?

Nein. Gemma 4 Modelle sind unter der Apache 2.0 Lizenz öffentlich zugänglich. Sie können ohne Account herunterladen, ein Account ermöglicht jedoch schnellere Downloads und Zugriff auf die Hugging Face CLI.

Was ist eine GGUF-Datei?

GGUF (GPT-Generated Unified Format) ist ein Binärformat für effiziente lokale Inferenz mit llama.cpp und Ollama. Es unterstützt verschiedene Quantisierungsstufen, sodass Sie Genauigkeit gegen kleinere Dateigrößen und geringeren Speicherverbrauch eintauschen können.

Kann ich Gemma 4 in China herunterladen?

Ja. ModelScope (魔搭社区) spiegelt Gemma 4 Modelle mit schnellen Download-Geschwindigkeiten innerhalb Chinas. Alternativ verwenden Sie einen Mirror oder Proxy für Hugging Face Downloads.

downloadGuide.faq.items.6.q

downloadGuide.faq.items.6.a

downloadGuide.faq.items.7.q

downloadGuide.faq.items.7.a

downloadGuide.faq.items.8.q

downloadGuide.faq.items.8.a

downloadGuide.faq.items.9.q

downloadGuide.faq.items.9.a

Herunterladen und bereitstellen

Holen Sie sich die Gemma 4 Modellgewichte und starten Sie das Deployment. Schauen Sie in unseren Deployment-Leitfaden für Schritt-für-Schritt-Anweisungen.

Deployment-Leitfaden Modelle vergleichen Zuerst online ausprobieren