Gemma 4 mit Ollama betreiben

Ollama ist der schnellste und einfachste Weg, Gemma 4 auf Ihrer eigenen Hardware auszuführen. Mit einem einzigen Befehl können Sie jede Gemma 4 Modellvariante herunterladen und mit dem Chat beginnen — keine Python-Umgebung, kein komplexes Setup, keine GPU-Konfiguration erforderlich.

Ollama erkennt Ihre Hardware (CPU, GPU, Speicher) automatisch und optimiert die Modellkonfiguration für beste Leistung. Es unterstützt macOS, Linux und Windows und bietet eine OpenAI-kompatible API für einfache Integration in Ihre Anwendungen.

Schritt 1: Ollama installieren

macOS

Herunterladen von ollama.com oder Installation über Homebrew:

# Homebrew
brew install ollama

# Or download from https://ollama.com/download/mac

Linux

Ein-Zeilen-Installationsskript:

curl -fsSL https://ollama.com/install.sh | sh

Windows

Laden Sie den Installer von ollama.com herunter oder verwenden Sie winget:

# winget
winget install Ollama.Ollama

# Or download from https://ollama.com/download/windows

Installation verifizieren:

ollama --version

Schritt 2: Gemma 4 Modell auswählen

Alle Gemma 4 Varianten sind in der Ollama Library verfügbar. Wählen Sie nach Hardware und Bedarf:

gemma4:e2b

~1,5 GBVRAM: 2 GB

Ultraleicht für Edge-Geräte und einfache Aufgaben

gemma4:e4b

~3 GBVRAM: 4 GB

Beste Balance zwischen Qualität und Ressourcenverbrauch

gemma4:26b

~15 GBVRAM: 16 GB

MoE-Architektur — Qualität eines großen Modells zu geringen Kosten

gemma4:31b

~18 GBVRAM: 24 GB

Maximale Qualität — Flaggschiff-Dense-Modell

Schritt 3: Gemma 4 ausführen

Interaktive Chat-Sitzung starten:

# Start interactive chat with Gemma 4 E4B
ollama run gemma4:e4b

# Or the flagship 31B model
ollama run gemma4:31b

Einzelnen Prompt ausführen:

ollama run gemma4:e4b "Explain quantum computing in simple terms"

Mit Bildern verwenden (multimodal):

# In the interactive chat, use /image to add images
ollama run gemma4:e4b
>>> /image photo.jpg What do you see in this image?

Die Ollama API nutzen

Ollama bietet eine OpenAI-kompatible REST API unter localhost:11434 und erleichtert so die Integration von Gemma 4 in Ihre Anwendungen:

Chat-Completion:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:e4b",
    "messages": [
      {"role": "user", "content": "Hello, Gemma 4!"}
    ]
  }'

Textgenerierung:

curl http://localhost:11434/api/generate \
  -d '{
    "model": "gemma4:e4b",
    "prompt": "Write a Python function to sort a list"
  }'

Erweiterte Konfiguration

Benutzerdefinierte Modelfile

Erstellen Sie eine benutzerdefinierte Modelfile, um Modellparameter wie Temperatur, Kontextlänge und System-Prompt anzupassen:

FROM gemma4:e4b

PARAMETER temperature 0.7
PARAMETER num_ctx 32768

SYSTEM """
You are a helpful coding assistant. Always provide code examples.
"""

GPU-Konfiguration

Ollama erkennt GPUs automatisch, aber Sie können das Offloading der GPU-Layer steuern:

# Set number of GPU layers
OLLAMA_NUM_GPU=35 ollama run gemma4:31b

# CPU only mode
OLLAMA_NUM_GPU=0 ollama run gemma4:e4b

Kontextlänge

Erhöhen Sie das Standard-Kontextfenster für längere Konversationen:

ollama run gemma4:e4b --num-ctx 65536

Fehlerbehebung

Modell-Download ist langsam

Ollama lädt vom ollama.com CDN herunter. Bei langsamen Downloads prüfen Sie Ihre Internetverbindung oder versuchen Sie ein VPN. Große Modelle (26B, 31B) können je nach Bandbreite 10-30 Minuten dauern.

Out-of-Memory-Fehler

Probieren Sie eine kleinere Modellvariante oder eine quantisierte Version. Verwenden Sie 'ollama run gemma4:e4b' statt des 31B-Modells. Auf Systemen mit begrenztem RAM schließen Sie andere Anwendungen vor der Ausführung.

Langsame Inferenzgeschwindigkeit

Stellen Sie sicher, dass Ollama Ihre GPU nutzt: prüfen mit 'ollama ps'. Auf dem Mac nutzt Ollama automatisch Metal-GPU-Beschleunigung. Auf Linux/Windows sicherstellen, dass NVIDIA- oder AMD-GPU-Treiber korrekt installiert sind.

API-Verbindung verweigert

Stellen Sie sicher, dass der Ollama-Dienst läuft: 'ollama serve'. Der Standard-API-Endpunkt ist http://localhost:11434. Prüfen Sie die Firewall-Einstellungen, wenn Sie von einem anderen Rechner zugreifen.

Ollama + Gemma 4 FAQ

Welches Gemma 4 Modell eignet sich am besten für Ollama?

Für die meisten Nutzer bietet gemma4:e4b die beste Balance aus Qualität und Leistung. Wenn Sie eine GPU mit 16GB+ VRAM haben, liefert gemma4:26b nahezu Flaggschiff-Qualität mit effizienter MoE-Inferenz. Das gemma4:31b Modell benötigt 24GB+ VRAM, liefert aber maximale Leistung.

Kann ich Gemma 4 auf Ollama ohne GPU ausführen?

Ja. Ollama unterstützt CPU-only-Inferenz für alle Gemma 4 Varianten. Die E2B- und E4B-Modelle laufen auf CPU angemessen schnell. Größere Modelle sind ohne GPU-Beschleunigung deutlich langsamer, aber weiterhin funktional.

Wie aktualisiere ich Gemma 4 in Ollama?

Führen Sie 'ollama pull gemma4:e4b' (oder Ihre bevorzugte Variante) aus, um die neueste Version herunterzuladen. Ollama lädt nur die Differenzen, wenn Sie bereits eine frühere Version installiert haben.

Kann ich Ollama Gemma 4 mit anderen Tools verwenden?

Ja. Ollamas OpenAI-kompatible API funktioniert mit den meisten KI-Tools und Frameworks, darunter LangChain, LlamaIndex, Open WebUI, Continue.dev und viele andere. Verweisen Sie sie einfach auf http://localhost:11434.

Unterstützt Ollama die multimodalen Funktionen von Gemma 4?

Ja. Ollama unterstützt Gemma 4s multimodale Fähigkeiten. Sie können Bilder mit dem /image-Befehl im interaktiven Chat oder über den image-Parameter der API an das Modell übergeben.

Wie viel Speicherplatz benötigt Gemma 4 in Ollama?

Der Speicherplatz hängt von der Variante ab: E2B (~1,5GB), E4B (~3GB), 26B MoE (~15GB), 31B Dense (~18GB). Dies gilt für die Standard-Quantisierung. Modelle werden unter ~/.ollama/models auf macOS/Linux gespeichert.

ollamaGuide.faq.items.6.q

ollamaGuide.faq.items.6.a

ollamaGuide.faq.items.7.q

ollamaGuide.faq.items.7.a

ollamaGuide.faq.items.8.q

ollamaGuide.faq.items.8.a

ollamaGuide.faq.items.9.q

ollamaGuide.faq.items.9.a

Bereit, Gemma 4 auszuführen?

Installieren Sie Ollama und beginnen Sie in wenigen Minuten mit Gemma 4 zu chatten. Oder erkunden Sie andere Bereitstellungsoptionen.

Ollama installieren Andere Deploy-Optionen Zuerst online ausprobieren