Configuration matérielle requise pour Gemma 4

L'une des plus grandes forces de Gemma 4 est sa gamme de tailles de modèles — du E2B ultra-compact qui fonctionne sur un smartphone au 31B phare qui nécessite un GPU haut de gamme. Ce guide détaille les besoins matériels exacts pour chaque variante afin que vous puissiez choisir le bon modèle pour votre configuration.

Les besoins matériels dépendent de trois facteurs : la variante du modèle, le niveau de quantification et la longueur de contexte. Une quantification plus faible et un contexte plus court réduisent considérablement les besoins, rendant Gemma 4 accessible sur une large gamme de matériels.

Référence rapide : exigences minimales

Modèle	Paramètres	VRAM (FP16)	VRAM (INT8)	VRAM (INT4)	Espace disque
E2B	2B	4 GB	2.5 GB	1.5 GB	~1.5–4 GB
E4B	4B	8 GB	5 GB	3 GB	~3–8 GB
26B MoE	26B	52 GB	28 GB	16 GB	~15–52 GB
31B Dense	31B	62 GB	33 GB	18 GB	~18–62 GB

Exigences détaillées par modèle

Gemma 4 E2B — Edge et mobile

VRAM

1,5–4 Go

RAM

4 Go de RAM système minimum

Disk

~1,5 Go (quantifié) / ~4 Go (FP16)

GPU

Aucun GPU dédié requis. Fonctionne sur CPU, NPU mobile ou GPU intégré.

Devices: Smartphones (iOS/Android), Raspberry Pi 5, tablettes, appareils edge

Le modèle E2B est conçu spécifiquement pour les environnements à ressources limitées. Il fonctionne efficacement sur les NPU mobiles et même les configurations CPU uniquement. Idéal pour l'inférence sur appareil où la confidentialité et la latence sont prioritaires.

Gemma 4 E4B — Ordinateur portable et de bureau

VRAM

3–8 Go

RAM

8 Go de RAM système minimum

Disk

~3 Go (quantifié) / ~8 Go (FP16)

GPU

Tout GPU avec 4 Go+ VRAM, ou CPU uniquement avec suffisamment de RAM

Devices: Ordinateurs portables, ordinateurs de bureau, Mac avec Apple Silicon (M1+), instances cloud bas de gamme

Le point idéal pour la plupart des usages personnels. Fonctionne bien sur un MacBook Air M1 avec 8 Go de mémoire unifiée. Sur Windows/Linux, une RTX 3060 (12 Go) le gère facilement. L'inférence CPU est faisable mais plus lente.

Gemma 4 26B A4B (MoE) — GPU de bureau

VRAM

16–52 Go

RAM

32 Go de RAM système recommandés

Disk

~15 Go (quantifié) / ~52 Go (FP16)

GPU

RTX 4090 (24 Go), RTX A5000, A100 (40/80 Go), ou Apple M2 Ultra+

Devices: Ordinateurs de bureau haut de gamme, stations de travail, instances GPU cloud (A100, L4, H100)

Malgré ses 26B paramètres au total, l'architecture MoE n'active que 4B paramètres par inférence. La quantification INT4 ramène l'utilisation de VRAM à ~16 Go, la rendant accessible sur RTX 4090. Pour FP16, vous aurez besoin de 48 Go+ de VRAM ou de configurations multi-GPU.

Gemma 4 31B Dense — Station de travail et serveur

VRAM

18–62 Go

RAM

64 Go de RAM système recommandés

Disk

~18 Go (quantifié) / ~62 Go (FP16)

GPU

RTX 4090 (24 Go pour INT4), A100 (40/80 Go), H100, ou Apple M2 Ultra+

Devices: Stations de travail, serveurs, instances GPU cloud, configurations multi-GPU

Le modèle phare nécessite du matériel sérieux pour la pleine précision mais est accessible avec la quantification INT4 sur une seule RTX 4090. Pour le service de production à grande échelle, les GPU A100 ou H100 sont recommandés. Les Mac Apple Silicon avec 64 Go+ de mémoire unifiée peuvent l'exécuter via MLX.

GPU recommandés

Quel GPU choisir pour Gemma 4 ?

NVIDIA RTX 4060 (8 Go)

E2B, E4B

Niveau d'entrée pour Gemma 4. Gère confortablement E4B en INT4.

NVIDIA RTX 4070 Ti Super (16 Go)

E2B, E4B, 26B (INT4)

Peut exécuter le modèle 26B MoE en quantification INT4.

NVIDIA RTX 4090 (24 Go)

Tous les modèles (quantifiés)

Le point idéal. Exécute tous les modèles en INT4, et 26B en INT8.

NVIDIA A100 (40/80 Go)

Tous les modèles (toutes précisions)

GPU professionnel/cloud. FP16 complet pour tous les modèles sur la variante 80 Go.

Apple M3 Max (36/48 Go)

E2B, E4B, 26B (INT4/INT8)

Mémoire unifiée. Excellent avec le framework MLX.

Apple M2/M3 Ultra (64-192 Go)

Tous les modèles (toutes précisions)

Mémoire unifiée massive qui gère même 31B en FP16.

Impact de la longueur de contexte sur la mémoire

Les fenêtres de contexte plus longues nécessitent de la mémoire supplémentaire au-delà des poids du modèle. Le cache KV croît linéairement avec la longueur de contexte :

Context	E4B	26B MoE	31B Dense
8K	+0.2 GB	+0.5 GB	+0.6 GB
32K	+0.8 GB	+2.0 GB	+2.4 GB
128K	+3.2 GB	+8.0 GB	+9.6 GB
256K	N/A	+16 GB	+19.2 GB

Ce sont des besoins approximatifs en VRAM supplémentaire au-dessus du modèle de base. L'utilisation réelle dépend de la taille du batch et de l'implémentation.

FAQ matériel

Puis-je exécuter Gemma 4 sans GPU ?

Oui. Toutes les variantes de Gemma 4 prennent en charge l'inférence CPU via Ollama ou llama.cpp. E2B et E4B fonctionnent à des vitesses raisonnables sur les CPU modernes. Les modèles plus grands seront lents mais fonctionnels. Assurez-vous d'avoir suffisamment de RAM système — environ 2x la taille du fichier de modèle.

De combien de VRAM ai-je besoin pour Gemma 4 ?

En quantification INT4 : E2B nécessite ~1,5 Go, E4B ~3 Go, 26B MoE ~16 Go, 31B Dense ~18 Go. En FP16 (pleine précision) : E2B ~4 Go, E4B ~8 Go, 26B ~52 Go, 31B ~62 Go. La plupart des utilisateurs devraient utiliser la quantification INT4 ou INT8.

Puis-je exécuter le modèle 31B sur une RTX 4090 ?

Oui, en quantification INT4 (~18 Go VRAM). Les 24 Go de la RTX 4090 sont suffisants pour cela. Pour une précision plus élevée, vous aurez besoin de plus de VRAM — envisagez une A100 80 Go ou des configurations multi-GPU.

Qu'en est-il du Mac avec Apple Silicon ?

Les Mac Apple Silicon avec mémoire unifiée sont excellents pour Gemma 4. Un M1/M2 avec 16 Go exécute bien E4B. M3 Max (36-48 Go) gère le 26B MoE. M2/M3 Ultra (64 Go+) peut exécuter le modèle 31B. Utilisez MLX ou Ollama pour de meilleures performances.

La quantification affecte-t-elle la qualité ?

La quantification INT8 préserve généralement 98-99% de la qualité. INT4 préserve 93-95%. Pour la plupart des cas d'utilisation pratiques, INT4 est parfaitement acceptable. Seules les tâches de recherche ou d'évaluation nécessitant une reproductibilité exacte bénéficient de FP16.

Puis-je répartir Gemma 4 sur plusieurs GPU ?

Oui. vLLM, llama.cpp et d'autres frameworks prennent en charge le parallélisme tensoriel sur plusieurs GPU. Cela vous permet d'exécuter le modèle 31B avec une précision plus élevée en le répartissant sur 2x RTX 4090 (48 Go au total) ou des configurations similaires.

requirementsPage.faq.items.6.q

requirementsPage.faq.items.6.a

requirementsPage.faq.items.7.q

requirementsPage.faq.items.7.a

requirementsPage.faq.items.8.q

requirementsPage.faq.items.8.a

requirementsPage.faq.items.9.q

requirementsPage.faq.items.9.a

Prêt à déployer ?

Maintenant que vous connaissez les exigences, configurez Gemma 4 sur votre matériel.

Guide de déploiement Guide Ollama Télécharger les modèles