Gemma 4 mit MLX auf dem Mac betreiben

MLX ist Apples Machine-Learning-Framework, speziell für Apple Silicon (M1, M2, M3, M4) entwickelt. Es nutzt die Unified-Memory-Architektur der Apple-Chips und liefert herausragende Inferenzleistung — oft besser als GPU-basierte Setups für Modelle, die in den Speicher passen.

Gemma 4 funktioniert hervorragend mit MLX und macht jeden Mac mit Apple Silicon zu einer leistungsfähigen KI-Workstation. Dieser Leitfaden behandelt Installation, das Ausführen aller Gemma 4 Varianten und Performance-Optimierung auf Ihrem Mac.

Warum MLX für Gemma 4?

Vorteil Unified Memory

Die Unified-Memory-Architektur von Apple Silicon bedeutet kein GPU-VRAM-Limit — der gesamte Systemspeicher ist verfügbar. Ein Mac mit 64GB RAM kann Modelle laden und ausführen, die auf dem PC eine GPU für über 1.500 $ erfordern würden.

Native Optimierung

MLX wird von Apple speziell für Apple Silicon entwickelt und nutzt Metal-Compute-Shader und optimierte Speicherzugriffsmuster. Es liefert konsequent bessere Tokens pro Sekunde als generische CPU-Inferenz.

Einfache Einrichtung

Mit pip installieren, ein Modell herunterladen und mit der Generierung beginnen. Keine CUDA-Treiber, keine Docker-Container, kein komplexes Environment-Setup nötig.

Energieeffizienz

Die Effizienz von Apple Silicon bedeutet, dass Sie Gemma 4 stundenlang im Akkubetrieb ausführen können. Ideal für Entwickler, die lokale KI wollen, ohne an eine Steckdose gebunden zu sein.

Installation

Installieren Sie mlx-lm, Apples Model-Serving-Bibliothek für MLX:

pip install mlx-lm

# Verify installation
python -c "import mlx_lm; print('MLX-LM ready')

Gemma 4 Modelle ausführen

Welche Gemma 4 Modelle auf welchen Macs gut laufen:

MacBook Air/Pro (8GB)

E2B, E4B (INT4)

E4B bei INT4-Quantisierung passt komfortabel hinein. Lassen Sie Platz für OS und Apps.

MacBook Pro (16-18GB)

E2B, E4B, 26B MoE (INT4)

26B MoE bei INT4 (~16GB) passt, lässt aber wenig Spielraum. E4B ist der Sweet Spot.

MacBook Pro / Mac Studio (36-48GB)

Alle Modelle (INT4/INT8)

Komfortabel für 26B bei INT8. 31B bei INT4 passt mit reichlich Spielraum.

Mac Studio / Mac Pro (64-192GB)

Alle Modelle (alle Präzisionen)

Kann 31B bei FP16 ausführen. Die ultimative Gemma 4 Workstation.

MLX-Befehle

Textgenerierung

mlx_lm.generate \
  --model mlx-community/gemma-4-e4b-it-4bit \
  --prompt "Explain quantum computing in simple terms" \
  --max-tokens 512

Interaktiver Chat

mlx_lm.chat --model mlx-community/gemma-4-e4b-it-4bit

API-Server starten

mlx_lm.server \
  --model mlx-community/gemma-4-e4b-it-4bit \
  --port 8080

# Then use the OpenAI-compatible API:
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "gemma-4-e4b", "messages": [{"role": "user", "content": "Hello!"}]}'

Ein Modell quantisieren

mlx_lm.convert \
  --hf-path google/gemma-4-e4b-it \
  --mlx-path ./gemma-4-e4b-4bit \
  -q --q-bits 4

Performance-Tipps

Speicherhungrige Apps schließen

Safari, Chrome und Docker können erheblichen RAM verbrauchen. Schließen Sie sie vor dem Ausführen größerer Modelle, um den verfügbaren Speicher für MLX zu maximieren.

Quantisierte Modelle verwenden

Verwenden Sie auf Maschinen mit ≤32GB RAM immer INT4- oder INT8-quantisierte Modelle. Der Qualitätsunterschied ist minimal, die Speicherersparnis jedoch erheblich.

Kontextlänge anpassen

Längere Kontextfenster verbrauchen mehr Speicher. Wenn Ihnen RAM knapp wird, reduzieren Sie die maximale Kontextlänge, um Speicher für die Modellgewichte freizugeben.

Speicherauslastung überwachen

Nutzen Sie die Aktivitätsanzeige, um die Speicherauslastung zu beobachten. Wird sie gelb/rot, swappt das System auf Disk und die Inferenz wird dramatisch langsamer. Erwägen Sie ein kleineres Modell oder stärkere Quantisierung.

MLX + Gemma 4 FAQ

Kann ich Gemma 4 auf einem Intel Mac ausführen?

MLX benötigt Apple Silicon (M1 oder neuer). Für Intel Macs nutzen Sie stattdessen Ollama oder llama.cpp, die CPU-Inferenz auf jedem Mac unterstützen.

Wie schnell ist Gemma 4 auf MLX?

Die Leistung variiert je nach Modell und Hardware: E4B auf M3 Pro erreicht ~30-40 Tokens/Sekunde. 26B MoE auf M3 Max erreicht ~15-20 Tok/s. 31B auf M2 Ultra liefert ~10-15 Tok/s. Diese Geschwindigkeiten sind für interaktive Nutzung ausgezeichnet.

MLX vs Ollama auf dem Mac — was ist besser?

Beide sind auf dem Mac hervorragend. Ollama ist einfacher (Ein-Befehl-Setup) und enthält einen integrierten API-Server. MLX bietet mehr Kontrolle, bessere Speichereffizienz und oft etwas schnellere Inferenz. Die meisten Nutzer sollten mit Ollama beginnen; zu MLX wechseln für maximale Leistung.

Woher kommen MLX-Modelle?

MLX-formatierte Modelle sind auf Hugging Face verfügbar, oft hochgeladen von der mlx-community-Organisation. Sie können auch jedes SafeTensors-Modell mit den Konvertierungstools von mlx-lm in das MLX-Format konvertieren.

Kann ich Gemma 4 mit MLX fine-tunen?

Ja. mlx-lm unterstützt LoRA-Fine-Tuning auf Apple Silicon. So können Sie Gemma 4 für Ihren Bereich direkt auf Ihrem Mac anpassen, ohne einen separaten GPU-Server zu benötigen.

Wie viel RAM brauche ich für Gemma 4 auf dem Mac?

Mindestens 8GB für E4B bei INT4. 16GB für komfortable E4B/26B INT4 Nutzung. 36-48GB für 31B bei INT4. 64GB+ für 31B bei FP16. Denken Sie daran, dass macOS selbst 3-5GB verbraucht, planen Sie entsprechend.

mlxPage.faq.items.6.q

mlxPage.faq.items.6.a

mlxPage.faq.items.7.q

mlxPage.faq.items.7.a

mlxPage.faq.items.8.q

mlxPage.faq.items.8.a

mlxPage.faq.items.9.q

mlxPage.faq.items.9.a

Mit Gemma 4 auf Ihrem Mac durchstarten

Ihr Mac ist bereit für KI. Installieren Sie MLX, laden Sie Gemma 4 herunter und beginnen Sie zu generieren.

Modelle herunterladen Stattdessen Ollama probieren Zuerst online ausprobieren