Exécuter Gemma 4 avec MLX sur Mac

MLX est le framework d'apprentissage automatique d'Apple conçu spécifiquement pour Apple Silicon (M1, M2, M3, M4). Il tire parti de l'architecture de mémoire unifiée des puces Apple pour offrir des performances d'inférence exceptionnelles — surpassant souvent les configurations GPU pour les modèles qui tiennent en mémoire.

Gemma 4 fonctionne excellemment avec MLX, faisant de tout Mac avec Apple Silicon une station de travail IA performante. Ce guide couvre l'installation, l'exécution de toutes les variantes de Gemma 4 et l'optimisation des performances sur votre Mac.

Pourquoi MLX pour Gemma 4 ?

Avantage de la mémoire unifiée

L'architecture de mémoire unifiée d'Apple Silicon signifie pas de limite VRAM GPU — toute la mémoire système est disponible. Un Mac avec 64 Go de RAM peut charger et exécuter des modèles qui nécessiteraient un GPU à plus de 1 500 $ sur PC.

Optimisation native

MLX est conçu par Apple spécifiquement pour Apple Silicon, utilisant les shaders de calcul Metal et des modèles d'accès mémoire optimisés. Il offre constamment plus de tokens par seconde que l'inférence CPU générique.

Configuration simple

Installez avec pip, téléchargez un modèle et commencez à générer. Pas de pilotes CUDA, pas de conteneurs Docker, pas de configuration d'environnement complexe requise.

Efficacité énergétique

L'efficacité d'Apple Silicon signifie que vous pouvez exécuter Gemma 4 pendant des heures sur batterie. Idéal pour les développeurs qui veulent une IA locale sans être attachés à une prise murale.

Installation

Installez mlx-lm, la bibliothèque de service de modèles d'Apple pour MLX :

pip install mlx-lm

# Verify installation
python -c "import mlx_lm; print('MLX-LM ready')

Exécuter les modèles Gemma 4

Quels modèles Gemma 4 fonctionnent bien sur quels Macs :

MacBook Air/Pro (8 Go)

E2B, E4B (INT4)

E4B en quantification INT4 tient confortablement. Laissez de la place pour l'OS et les apps.

MacBook Pro (16-18 Go)

E2B, E4B, 26B MoE (INT4)

26B MoE en INT4 (~16 Go) tient mais laisse peu de marge. E4B est le point idéal.

MacBook Pro / Mac Studio (36-48 Go)

Tous les modèles (INT4/INT8)

Confortable pour 26B en INT8. 31B en INT4 tient avec de la marge.

Mac Studio / Mac Pro (64-192 Go)

Tous les modèles (toutes précisions)

Peut exécuter 31B en FP16. La station de travail Gemma 4 ultime.

Commandes MLX

Génération de texte

mlx_lm.generate \
  --model mlx-community/gemma-4-e4b-it-4bit \
  --prompt "Explain quantum computing in simple terms" \
  --max-tokens 512

Chat interactif

mlx_lm.chat --model mlx-community/gemma-4-e4b-it-4bit

Démarrer le serveur API

mlx_lm.server \
  --model mlx-community/gemma-4-e4b-it-4bit \
  --port 8080

# Then use the OpenAI-compatible API:
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "gemma-4-e4b", "messages": [{"role": "user", "content": "Hello!"}]}'

Quantifier un modèle

mlx_lm.convert \
  --hf-path google/gemma-4-e4b-it \
  --mlx-path ./gemma-4-e4b-4bit \
  -q --q-bits 4

Conseils de performance

Fermer les apps gourmandes en mémoire

Safari, Chrome et Docker peuvent consommer beaucoup de RAM. Fermez-les avant d'exécuter des modèles plus grands pour maximiser la mémoire disponible pour MLX.

Utiliser des modèles quantifiés

Utilisez toujours des modèles quantifiés INT4 ou INT8 sur les machines avec ≤32 Go de RAM. La différence de qualité est minime mais les économies de mémoire sont substantielles.

Ajuster la longueur de contexte

Les fenêtres de contexte plus longues consomment plus de mémoire. Si vous manquez de RAM, réduisez la longueur de contexte maximale pour libérer de la mémoire pour les poids du modèle.

Surveiller la pression mémoire

Utilisez le Moniteur d'activité pour surveiller la pression mémoire. Si elle devient jaune/rouge, le système échange vers le disque et l'inférence ralentira considérablement. Envisagez un modèle plus petit ou plus de quantification.

FAQ MLX + Gemma 4

Puis-je exécuter Gemma 4 sur un Mac Intel ?

MLX nécessite Apple Silicon (M1 ou ultérieur). Pour les Macs Intel, utilisez plutôt Ollama ou llama.cpp, qui prennent en charge l'inférence CPU sur n'importe quel Mac.

Quelle est la vitesse de Gemma 4 sur MLX ?

Les performances varient selon le modèle et le matériel : E4B sur M3 Pro atteint ~30-40 tokens/seconde. 26B MoE sur M3 Max obtient ~15-20 tok/s. 31B sur M2 Ultra offre ~10-15 tok/s. Ces vitesses sont excellentes pour une utilisation interactive.

MLX vs Ollama sur Mac — lequel est meilleur ?

Les deux sont excellents sur Mac. Ollama est plus simple (configuration en une commande) et inclut un serveur API intégré. MLX offre plus de contrôle, une meilleure efficacité mémoire et une inférence souvent légèrement plus rapide. Pour la plupart des utilisateurs, commencez avec Ollama ; passez à MLX pour des performances maximales.

D'où viennent les modèles MLX ?

Les modèles au format MLX sont disponibles sur Hugging Face, souvent téléversés par l'organisation mlx-community. Vous pouvez également convertir n'importe quel modèle SafeTensors au format MLX en utilisant les outils de conversion de mlx-lm.

Puis-je affiner Gemma 4 avec MLX ?

Oui. mlx-lm prend en charge l'affinage LoRA sur Apple Silicon. Cela vous permet de personnaliser Gemma 4 pour votre domaine directement sur votre Mac sans avoir besoin d'un serveur GPU séparé.

De combien de RAM ai-je besoin pour Gemma 4 sur Mac ?

Minimum 8 Go pour E4B en INT4. 16 Go pour une utilisation confortable de E4B/26B INT4. 36-48 Go pour 31B en INT4. 64 Go+ pour 31B en FP16. Rappelez-vous que macOS lui-même utilise 3-5 Go, alors planifiez en conséquence.

mlxPage.faq.items.6.q

mlxPage.faq.items.6.a

mlxPage.faq.items.7.q

mlxPage.faq.items.7.a

mlxPage.faq.items.8.q

mlxPage.faq.items.8.a

mlxPage.faq.items.9.q

mlxPage.faq.items.9.a

Commencez à exécuter Gemma 4 sur votre Mac

Votre Mac est prêt pour l'IA. Installez MLX, téléchargez Gemma 4 et commencez à générer.

Télécharger les modèles Essayer Ollama à la place Essayer en ligne d'abord