Gemma 4

Gemma 4 Hardwareanforderungen

Eine der größten Stärken von Gemma 4 ist die Bandbreite an Modellgrößen — vom ultrakompakten E2B, das auf einem Smartphone läuft, bis zum Flaggschiff 31B, das eine High-End-GPU erfordert. Dieser Leitfaden schlüsselt die genauen Hardwareanforderungen jeder Variante auf, damit Sie das richtige Modell für Ihr Setup wählen können.

Der Hardwarebedarf hängt von drei Faktoren ab: Modellvariante, Quantisierungsstufe und Kontextlänge. Geringere Quantisierung und kürzerer Kontext reduzieren die Anforderungen deutlich und machen Gemma 4 auf vielfältiger Hardware zugänglich.

Schnellübersicht: Mindestanforderungen

ModellParameterVRAM (FP16)VRAM (INT8)VRAM (INT4)Speicherplatz
E2B2B4 GB2.5 GB1.5 GB~1.5–4 GB
E4B4B8 GB5 GB3 GB~3–8 GB
26B MoE26B52 GB28 GB16 GB~15–52 GB
31B Dense31B62 GB33 GB18 GB~18–62 GB

Detaillierte Anforderungen nach Modell

Gemma 4 E2B — Edge & Mobil

VRAM

1,5–4 GB

RAM

Mindestens 4 GB System-RAM

Disk

~1,5 GB (quantisiert) / ~4 GB (FP16)

GPU

Keine dedizierte GPU erforderlich. Läuft auf CPU, Mobile-NPU oder integrierter GPU.

Devices: Smartphones (iOS/Android), Raspberry Pi 5, Tablets, Edge-Geräte

Das E2B-Modell ist speziell für ressourcenbeschränkte Umgebungen konzipiert. Es läuft effizient auf Mobile-NPUs und sogar CPU-only-Konfigurationen. Ideal für On-Device-Inferenz, wenn Datenschutz und Latenz Priorität haben.

Gemma 4 E4B — Laptop & Desktop

VRAM

3–8 GB

RAM

Mindestens 8 GB System-RAM

Disk

~3 GB (quantisiert) / ~8 GB (FP16)

GPU

Jede GPU mit 4GB+ VRAM oder CPU-only mit ausreichend RAM

Devices: Laptops, Desktops, Mac mit Apple Silicon (M1+), Low-End-Cloud-Instanzen

Der Sweet Spot für die meisten persönlichen Einsätze. Läuft gut auf einem MacBook Air M1 mit 8GB Unified Memory. Auf Windows/Linux meistert eine RTX 3060 (12GB) das Modell problemlos. CPU-Inferenz ist möglich, aber langsamer.

Gemma 4 26B A4B (MoE) — Desktop-GPU

VRAM

16–52 GB

RAM

32 GB System-RAM empfohlen

Disk

~15 GB (quantisiert) / ~52 GB (FP16)

GPU

RTX 4090 (24GB), RTX A5000, A100 (40/80GB) oder Apple M2 Ultra+

Devices: High-End-Desktops, Workstations, Cloud-GPU-Instanzen (A100, L4, H100)

Trotz 26B Gesamtparameter aktiviert die MoE-Architektur nur 4B Parameter pro Inferenz. INT4-Quantisierung bringt den VRAM-Verbrauch auf ~16GB und macht es auf einer RTX 4090 zugänglich. Für FP16 benötigen Sie 48GB+ VRAM oder Multi-GPU-Setups.

Gemma 4 31B Dense — Workstation & Server

VRAM

18–62 GB

RAM

64 GB System-RAM empfohlen

Disk

~18 GB (quantisiert) / ~62 GB (FP16)

GPU

RTX 4090 (24GB für INT4), A100 (40/80GB), H100 oder Apple M2 Ultra+

Devices: Workstations, Server, Cloud-GPU-Instanzen, Multi-GPU-Setups

Das Flaggschiff-Modell erfordert ernsthafte Hardware für volle Präzision, ist aber bei INT4-Quantisierung auf einer einzelnen RTX 4090 zugänglich. Für Production-Serving im großen Maßstab werden A100- oder H100-GPUs empfohlen. Apple Silicon Macs mit 64GB+ Unified Memory können es über MLX ausführen.

Empfohlene GPUs

Welche GPU sollten Sie für Gemma 4 wählen?

NVIDIA RTX 4060 (8GB)

E2B, E4B

Einstieg in Gemma 4. Meistert E4B bei INT4 komfortabel.

NVIDIA RTX 4070 Ti Super (16GB)

E2B, E4B, 26B (INT4)

Kann das 26B MoE-Modell bei INT4-Quantisierung ausführen.

NVIDIA RTX 4090 (24GB)

Alle Modelle (quantisiert)

Der Sweet Spot. Führt alle Modelle bei INT4 aus und 26B bei INT8.

NVIDIA A100 (40/80GB)

Alle Modelle (alle Präzisionen)

Professionelle/Cloud-GPU. Volles FP16 für alle Modelle auf der 80GB-Variante.

Apple M3 Max (36/48GB)

E2B, E4B, 26B (INT4/INT8)

Unified Memory. Hervorragend mit dem MLX-Framework.

Apple M2/M3 Ultra (64-192GB)

Alle Modelle (alle Präzisionen)

Massives Unified Memory meistert sogar 31B bei FP16.

Einfluss der Kontextlänge auf den Speicher

Längere Kontextfenster benötigen zusätzlichen Speicher über die Modellgewichte hinaus. Der KV-Cache wächst linear mit der Kontextlänge:

ContextE4B26B MoE31B Dense
8K+0.2 GB+0.5 GB+0.6 GB
32K+0.8 GB+2.0 GB+2.4 GB
128K+3.2 GB+8.0 GB+9.6 GB
256KN/A+16 GB+19.2 GB

Dies sind ungefähre zusätzliche VRAM-Anforderungen zusätzlich zum Basismodell. Der tatsächliche Verbrauch hängt von Batchgröße und Implementierung ab.

Hardware-FAQ

Kann ich Gemma 4 ohne GPU ausführen?

Ja. Alle Gemma 4 Varianten unterstützen CPU-Inferenz über Ollama oder llama.cpp. E2B und E4B laufen auf modernen CPUs mit angemessener Geschwindigkeit. Größere Modelle sind langsam, aber funktional. Sorgen Sie für ausreichend System-RAM — ungefähr das Doppelte der Modelldateigröße.

Wie viel VRAM brauche ich für Gemma 4?

Bei INT4-Quantisierung: E2B ~1,5GB, E4B ~3GB, 26B MoE ~16GB, 31B Dense ~18GB. Bei FP16 (volle Präzision): E2B ~4GB, E4B ~8GB, 26B ~52GB, 31B ~62GB. Die meisten Nutzer sollten INT4- oder INT8-Quantisierung verwenden.

Kann ich das 31B-Modell auf einer RTX 4090 ausführen?

Ja, bei INT4-Quantisierung (~18GB VRAM). Die 24GB der RTX 4090 reichen dafür aus. Für höhere Präzision benötigen Sie mehr VRAM — in Betracht kommen A100 80GB oder Multi-GPU-Setups.

Wie sieht es mit Mac mit Apple Silicon aus?

Apple Silicon Macs mit Unified Memory sind hervorragend für Gemma 4. Ein M1/M2 mit 16GB führt E4B gut aus. M3 Max (36-48GB) meistert das 26B MoE. M2/M3 Ultra (64GB+) kann das 31B-Modell ausführen. Nutzen Sie MLX oder Ollama für beste Leistung.

Beeinflusst Quantisierung die Qualität?

INT8-Quantisierung bewahrt typischerweise 98-99% der Qualität. INT4 bewahrt 93-95%. Für die meisten praktischen Anwendungen ist INT4 völlig akzeptabel. Nur Forschungs- oder Evaluierungsaufgaben, die exakte Reproduzierbarkeit erfordern, profitieren von FP16.

Kann ich Gemma 4 auf mehrere GPUs aufteilen?

Ja. vLLM, llama.cpp und andere Frameworks unterstützen Tensor-Parallelismus über mehrere GPUs hinweg. So können Sie das 31B-Modell bei höherer Präzision auf 2x RTX 4090s (48GB gesamt) oder ähnlichen Konfigurationen ausführen.

requirementsPage.faq.items.6.q

requirementsPage.faq.items.6.a

requirementsPage.faq.items.7.q

requirementsPage.faq.items.7.a

requirementsPage.faq.items.8.q

requirementsPage.faq.items.8.a

requirementsPage.faq.items.9.q

requirementsPage.faq.items.9.a

Bereit für das Deployment?

Jetzt, wo Sie die Anforderungen kennen, richten Sie Gemma 4 auf Ihrer Hardware ein.