Gemma 4 Hardwareanforderungen
Eine der größten Stärken von Gemma 4 ist die Bandbreite an Modellgrößen — vom ultrakompakten E2B, das auf einem Smartphone läuft, bis zum Flaggschiff 31B, das eine High-End-GPU erfordert. Dieser Leitfaden schlüsselt die genauen Hardwareanforderungen jeder Variante auf, damit Sie das richtige Modell für Ihr Setup wählen können.
Der Hardwarebedarf hängt von drei Faktoren ab: Modellvariante, Quantisierungsstufe und Kontextlänge. Geringere Quantisierung und kürzerer Kontext reduzieren die Anforderungen deutlich und machen Gemma 4 auf vielfältiger Hardware zugänglich.
Schnellübersicht: Mindestanforderungen
| Modell | Parameter | VRAM (FP16) | VRAM (INT8) | VRAM (INT4) | Speicherplatz |
|---|---|---|---|---|---|
| E2B | 2B | 4 GB | 2.5 GB | 1.5 GB | ~1.5–4 GB |
| E4B | 4B | 8 GB | 5 GB | 3 GB | ~3–8 GB |
| 26B MoE | 26B | 52 GB | 28 GB | 16 GB | ~15–52 GB |
| 31B Dense | 31B | 62 GB | 33 GB | 18 GB | ~18–62 GB |
Detaillierte Anforderungen nach Modell
Gemma 4 E2B — Edge & Mobil
1,5–4 GB
Mindestens 4 GB System-RAM
~1,5 GB (quantisiert) / ~4 GB (FP16)
Keine dedizierte GPU erforderlich. Läuft auf CPU, Mobile-NPU oder integrierter GPU.
Devices: Smartphones (iOS/Android), Raspberry Pi 5, Tablets, Edge-Geräte
Das E2B-Modell ist speziell für ressourcenbeschränkte Umgebungen konzipiert. Es läuft effizient auf Mobile-NPUs und sogar CPU-only-Konfigurationen. Ideal für On-Device-Inferenz, wenn Datenschutz und Latenz Priorität haben.
Gemma 4 E4B — Laptop & Desktop
3–8 GB
Mindestens 8 GB System-RAM
~3 GB (quantisiert) / ~8 GB (FP16)
Jede GPU mit 4GB+ VRAM oder CPU-only mit ausreichend RAM
Devices: Laptops, Desktops, Mac mit Apple Silicon (M1+), Low-End-Cloud-Instanzen
Der Sweet Spot für die meisten persönlichen Einsätze. Läuft gut auf einem MacBook Air M1 mit 8GB Unified Memory. Auf Windows/Linux meistert eine RTX 3060 (12GB) das Modell problemlos. CPU-Inferenz ist möglich, aber langsamer.
Gemma 4 26B A4B (MoE) — Desktop-GPU
16–52 GB
32 GB System-RAM empfohlen
~15 GB (quantisiert) / ~52 GB (FP16)
RTX 4090 (24GB), RTX A5000, A100 (40/80GB) oder Apple M2 Ultra+
Devices: High-End-Desktops, Workstations, Cloud-GPU-Instanzen (A100, L4, H100)
Trotz 26B Gesamtparameter aktiviert die MoE-Architektur nur 4B Parameter pro Inferenz. INT4-Quantisierung bringt den VRAM-Verbrauch auf ~16GB und macht es auf einer RTX 4090 zugänglich. Für FP16 benötigen Sie 48GB+ VRAM oder Multi-GPU-Setups.
Gemma 4 31B Dense — Workstation & Server
18–62 GB
64 GB System-RAM empfohlen
~18 GB (quantisiert) / ~62 GB (FP16)
RTX 4090 (24GB für INT4), A100 (40/80GB), H100 oder Apple M2 Ultra+
Devices: Workstations, Server, Cloud-GPU-Instanzen, Multi-GPU-Setups
Das Flaggschiff-Modell erfordert ernsthafte Hardware für volle Präzision, ist aber bei INT4-Quantisierung auf einer einzelnen RTX 4090 zugänglich. Für Production-Serving im großen Maßstab werden A100- oder H100-GPUs empfohlen. Apple Silicon Macs mit 64GB+ Unified Memory können es über MLX ausführen.
Empfohlene GPUs
Welche GPU sollten Sie für Gemma 4 wählen?
NVIDIA RTX 4060 (8GB)
E2B, E4BEinstieg in Gemma 4. Meistert E4B bei INT4 komfortabel.
NVIDIA RTX 4070 Ti Super (16GB)
E2B, E4B, 26B (INT4)Kann das 26B MoE-Modell bei INT4-Quantisierung ausführen.
NVIDIA RTX 4090 (24GB)
Alle Modelle (quantisiert)Der Sweet Spot. Führt alle Modelle bei INT4 aus und 26B bei INT8.
NVIDIA A100 (40/80GB)
Alle Modelle (alle Präzisionen)Professionelle/Cloud-GPU. Volles FP16 für alle Modelle auf der 80GB-Variante.
Apple M3 Max (36/48GB)
E2B, E4B, 26B (INT4/INT8)Unified Memory. Hervorragend mit dem MLX-Framework.
Apple M2/M3 Ultra (64-192GB)
Alle Modelle (alle Präzisionen)Massives Unified Memory meistert sogar 31B bei FP16.
Einfluss der Kontextlänge auf den Speicher
Längere Kontextfenster benötigen zusätzlichen Speicher über die Modellgewichte hinaus. Der KV-Cache wächst linear mit der Kontextlänge:
| Context | E4B | 26B MoE | 31B Dense |
|---|---|---|---|
| 8K | +0.2 GB | +0.5 GB | +0.6 GB |
| 32K | +0.8 GB | +2.0 GB | +2.4 GB |
| 128K | +3.2 GB | +8.0 GB | +9.6 GB |
| 256K | N/A | +16 GB | +19.2 GB |
Dies sind ungefähre zusätzliche VRAM-Anforderungen zusätzlich zum Basismodell. Der tatsächliche Verbrauch hängt von Batchgröße und Implementierung ab.
Hardware-FAQ
Kann ich Gemma 4 ohne GPU ausführen?
Ja. Alle Gemma 4 Varianten unterstützen CPU-Inferenz über Ollama oder llama.cpp. E2B und E4B laufen auf modernen CPUs mit angemessener Geschwindigkeit. Größere Modelle sind langsam, aber funktional. Sorgen Sie für ausreichend System-RAM — ungefähr das Doppelte der Modelldateigröße.
Wie viel VRAM brauche ich für Gemma 4?
Bei INT4-Quantisierung: E2B ~1,5GB, E4B ~3GB, 26B MoE ~16GB, 31B Dense ~18GB. Bei FP16 (volle Präzision): E2B ~4GB, E4B ~8GB, 26B ~52GB, 31B ~62GB. Die meisten Nutzer sollten INT4- oder INT8-Quantisierung verwenden.
Kann ich das 31B-Modell auf einer RTX 4090 ausführen?
Ja, bei INT4-Quantisierung (~18GB VRAM). Die 24GB der RTX 4090 reichen dafür aus. Für höhere Präzision benötigen Sie mehr VRAM — in Betracht kommen A100 80GB oder Multi-GPU-Setups.
Wie sieht es mit Mac mit Apple Silicon aus?
Apple Silicon Macs mit Unified Memory sind hervorragend für Gemma 4. Ein M1/M2 mit 16GB führt E4B gut aus. M3 Max (36-48GB) meistert das 26B MoE. M2/M3 Ultra (64GB+) kann das 31B-Modell ausführen. Nutzen Sie MLX oder Ollama für beste Leistung.
Beeinflusst Quantisierung die Qualität?
INT8-Quantisierung bewahrt typischerweise 98-99% der Qualität. INT4 bewahrt 93-95%. Für die meisten praktischen Anwendungen ist INT4 völlig akzeptabel. Nur Forschungs- oder Evaluierungsaufgaben, die exakte Reproduzierbarkeit erfordern, profitieren von FP16.
Kann ich Gemma 4 auf mehrere GPUs aufteilen?
Ja. vLLM, llama.cpp und andere Frameworks unterstützen Tensor-Parallelismus über mehrere GPUs hinweg. So können Sie das 31B-Modell bei höherer Präzision auf 2x RTX 4090s (48GB gesamt) oder ähnlichen Konfigurationen ausführen.
requirementsPage.faq.items.6.q
requirementsPage.faq.items.6.a
requirementsPage.faq.items.7.q
requirementsPage.faq.items.7.a
requirementsPage.faq.items.8.q
requirementsPage.faq.items.8.a
requirementsPage.faq.items.9.q
requirementsPage.faq.items.9.a
Bereit für das Deployment?
Jetzt, wo Sie die Anforderungen kennen, richten Sie Gemma 4 auf Ihrer Hardware ein.