Gemma 4 mit Ollama betreiben
Ollama ist der schnellste und einfachste Weg, Gemma 4 auf Ihrer eigenen Hardware auszuführen. Mit einem einzigen Befehl können Sie jede Gemma 4 Modellvariante herunterladen und mit dem Chat beginnen — keine Python-Umgebung, kein komplexes Setup, keine GPU-Konfiguration erforderlich.
Ollama erkennt Ihre Hardware (CPU, GPU, Speicher) automatisch und optimiert die Modellkonfiguration für beste Leistung. Es unterstützt macOS, Linux und Windows und bietet eine OpenAI-kompatible API für einfache Integration in Ihre Anwendungen.
Schritt 1: Ollama installieren
macOS
Herunterladen von ollama.com oder Installation über Homebrew:
# Homebrew
brew install ollama
# Or download from https://ollama.com/download/macLinux
Ein-Zeilen-Installationsskript:
curl -fsSL https://ollama.com/install.sh | shWindows
Laden Sie den Installer von ollama.com herunter oder verwenden Sie winget:
# winget
winget install Ollama.Ollama
# Or download from https://ollama.com/download/windowsInstallation verifizieren:
ollama --versionSchritt 2: Gemma 4 Modell auswählen
Alle Gemma 4 Varianten sind in der Ollama Library verfügbar. Wählen Sie nach Hardware und Bedarf:
Ultraleicht für Edge-Geräte und einfache Aufgaben
Beste Balance zwischen Qualität und Ressourcenverbrauch
MoE-Architektur — Qualität eines großen Modells zu geringen Kosten
Maximale Qualität — Flaggschiff-Dense-Modell
Schritt 3: Gemma 4 ausführen
Interaktive Chat-Sitzung starten:
# Start interactive chat with Gemma 4 E4B
ollama run gemma4:e4b
# Or the flagship 31B model
ollama run gemma4:31bEinzelnen Prompt ausführen:
ollama run gemma4:e4b "Explain quantum computing in simple terms"Mit Bildern verwenden (multimodal):
# In the interactive chat, use /image to add images
ollama run gemma4:e4b
>>> /image photo.jpg What do you see in this image?Die Ollama API nutzen
Ollama bietet eine OpenAI-kompatible REST API unter localhost:11434 und erleichtert so die Integration von Gemma 4 in Ihre Anwendungen:
Chat-Completion:
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:e4b",
"messages": [
{"role": "user", "content": "Hello, Gemma 4!"}
]
}'Textgenerierung:
curl http://localhost:11434/api/generate \
-d '{
"model": "gemma4:e4b",
"prompt": "Write a Python function to sort a list"
}'Erweiterte Konfiguration
Benutzerdefinierte Modelfile
Erstellen Sie eine benutzerdefinierte Modelfile, um Modellparameter wie Temperatur, Kontextlänge und System-Prompt anzupassen:
FROM gemma4:e4b
PARAMETER temperature 0.7
PARAMETER num_ctx 32768
SYSTEM """
You are a helpful coding assistant. Always provide code examples.
"""GPU-Konfiguration
Ollama erkennt GPUs automatisch, aber Sie können das Offloading der GPU-Layer steuern:
# Set number of GPU layers
OLLAMA_NUM_GPU=35 ollama run gemma4:31b
# CPU only mode
OLLAMA_NUM_GPU=0 ollama run gemma4:e4bKontextlänge
Erhöhen Sie das Standard-Kontextfenster für längere Konversationen:
ollama run gemma4:e4b --num-ctx 65536Fehlerbehebung
Modell-Download ist langsam
Ollama lädt vom ollama.com CDN herunter. Bei langsamen Downloads prüfen Sie Ihre Internetverbindung oder versuchen Sie ein VPN. Große Modelle (26B, 31B) können je nach Bandbreite 10-30 Minuten dauern.
Out-of-Memory-Fehler
Probieren Sie eine kleinere Modellvariante oder eine quantisierte Version. Verwenden Sie 'ollama run gemma4:e4b' statt des 31B-Modells. Auf Systemen mit begrenztem RAM schließen Sie andere Anwendungen vor der Ausführung.
Langsame Inferenzgeschwindigkeit
Stellen Sie sicher, dass Ollama Ihre GPU nutzt: prüfen mit 'ollama ps'. Auf dem Mac nutzt Ollama automatisch Metal-GPU-Beschleunigung. Auf Linux/Windows sicherstellen, dass NVIDIA- oder AMD-GPU-Treiber korrekt installiert sind.
API-Verbindung verweigert
Stellen Sie sicher, dass der Ollama-Dienst läuft: 'ollama serve'. Der Standard-API-Endpunkt ist http://localhost:11434. Prüfen Sie die Firewall-Einstellungen, wenn Sie von einem anderen Rechner zugreifen.
Ollama + Gemma 4 FAQ
Welches Gemma 4 Modell eignet sich am besten für Ollama?
Für die meisten Nutzer bietet gemma4:e4b die beste Balance aus Qualität und Leistung. Wenn Sie eine GPU mit 16GB+ VRAM haben, liefert gemma4:26b nahezu Flaggschiff-Qualität mit effizienter MoE-Inferenz. Das gemma4:31b Modell benötigt 24GB+ VRAM, liefert aber maximale Leistung.
Kann ich Gemma 4 auf Ollama ohne GPU ausführen?
Ja. Ollama unterstützt CPU-only-Inferenz für alle Gemma 4 Varianten. Die E2B- und E4B-Modelle laufen auf CPU angemessen schnell. Größere Modelle sind ohne GPU-Beschleunigung deutlich langsamer, aber weiterhin funktional.
Wie aktualisiere ich Gemma 4 in Ollama?
Führen Sie 'ollama pull gemma4:e4b' (oder Ihre bevorzugte Variante) aus, um die neueste Version herunterzuladen. Ollama lädt nur die Differenzen, wenn Sie bereits eine frühere Version installiert haben.
Kann ich Ollama Gemma 4 mit anderen Tools verwenden?
Ja. Ollamas OpenAI-kompatible API funktioniert mit den meisten KI-Tools und Frameworks, darunter LangChain, LlamaIndex, Open WebUI, Continue.dev und viele andere. Verweisen Sie sie einfach auf http://localhost:11434.
Unterstützt Ollama die multimodalen Funktionen von Gemma 4?
Ja. Ollama unterstützt Gemma 4s multimodale Fähigkeiten. Sie können Bilder mit dem /image-Befehl im interaktiven Chat oder über den image-Parameter der API an das Modell übergeben.
Wie viel Speicherplatz benötigt Gemma 4 in Ollama?
Der Speicherplatz hängt von der Variante ab: E2B (~1,5GB), E4B (~3GB), 26B MoE (~15GB), 31B Dense (~18GB). Dies gilt für die Standard-Quantisierung. Modelle werden unter ~/.ollama/models auf macOS/Linux gespeichert.
ollamaGuide.faq.items.6.q
ollamaGuide.faq.items.6.a
ollamaGuide.faq.items.7.q
ollamaGuide.faq.items.7.a
ollamaGuide.faq.items.8.q
ollamaGuide.faq.items.8.a
ollamaGuide.faq.items.9.q
ollamaGuide.faq.items.9.a
Bereit, Gemma 4 auszuführen?
Installieren Sie Ollama und beginnen Sie in wenigen Minuten mit Gemma 4 zu chatten. Oder erkunden Sie andere Bereitstellungsoptionen.