Requisitos de hardware de Gemma 4

Una de las mayores fortalezas de Gemma 4 es su gama de tamaños de modelo — desde el ultracompacto E2B que funciona en un smartphone hasta el insignia 31B que requiere una GPU de gama alta. Esta guía detalla los requisitos exactos de hardware para cada variante para que puedas elegir el modelo adecuado para tu configuración.

Las necesidades de hardware dependen de tres factores: variante del modelo, nivel de cuantización y longitud del contexto. Una cuantización menor y un contexto más corto reducen significativamente los requisitos, haciendo a Gemma 4 accesible en una amplia gama de hardware.

Referencia rápida: requisitos mínimos

Modelo	Parámetros	VRAM (FP16)	VRAM (INT8)	VRAM (INT4)	Espacio en disco
E2B	2B	4 GB	2.5 GB	1.5 GB	~1.5–4 GB
E4B	4B	8 GB	5 GB	3 GB	~3–8 GB
26B MoE	26B	52 GB	28 GB	16 GB	~15–52 GB
31B Dense	31B	62 GB	33 GB	18 GB	~18–62 GB

Requisitos detallados por modelo

Gemma 4 E2B — Borde y móvil

VRAM

1.5–4 GB

RAM

4 GB de RAM del sistema mínimo

Disk

~1.5 GB (cuantizado) / ~4 GB (FP16)

GPU

No requiere GPU dedicada. Funciona en CPU, NPU móvil o GPU integrada.

Devices: Smartphones (iOS/Android), Raspberry Pi 5, tablets, dispositivos de borde

El modelo E2B está diseñado específicamente para entornos con recursos limitados. Funciona eficientemente en NPUs móviles e incluso en configuraciones solo con CPU. Ideal para inferencia en el dispositivo donde la privacidad y la latencia son prioritarias.

Gemma 4 E4B — Laptop y escritorio

VRAM

3–8 GB

RAM

8 GB de RAM del sistema mínimo

Disk

~3 GB (cuantizado) / ~8 GB (FP16)

GPU

Cualquier GPU con 4GB+ de VRAM, o solo CPU con suficiente RAM

Devices: Laptops, computadoras de escritorio, Mac con Apple Silicon (M1+), instancias cloud de gama baja

El punto ideal para la mayoría del uso personal. Funciona bien en una MacBook Air M1 con 8GB de memoria unificada. En Windows/Linux, una RTX 3060 (12GB) lo maneja fácilmente. La inferencia en CPU es viable pero más lenta.

Gemma 4 26B A4B (MoE) — GPU de escritorio

VRAM

16–52 GB

RAM

32 GB de RAM del sistema recomendada

Disk

~15 GB (cuantizado) / ~52 GB (FP16)

GPU

RTX 4090 (24GB), RTX A5000, A100 (40/80GB) o Apple M2 Ultra+

Devices: Computadoras de escritorio de gama alta, estaciones de trabajo, instancias cloud con GPU (A100, L4, H100)

A pesar de tener 26B parámetros totales, la arquitectura MoE activa solo 4B parámetros por inferencia. La cuantización INT4 reduce el uso de VRAM a ~16GB, haciéndolo accesible en RTX 4090. Para FP16 necesitarás 48GB+ de VRAM o configuraciones multi-GPU.

Gemma 4 31B Denso — Estación de trabajo y servidor

VRAM

18–62 GB

RAM

64 GB de RAM del sistema recomendada

Disk

~18 GB (cuantizado) / ~62 GB (FP16)

GPU

RTX 4090 (24GB para INT4), A100 (40/80GB), H100 o Apple M2 Ultra+

Devices: Estaciones de trabajo, servidores, instancias cloud con GPU, configuraciones multi-GPU

El modelo insignia requiere hardware serio para precisión completa pero es accesible en cuantización INT4 en una sola RTX 4090. Para servicio en producción a escala, se recomiendan GPUs A100 o H100. Los Mac con Apple Silicon con 64GB+ de memoria unificada pueden ejecutarlo vía MLX.

GPUs recomendadas

¿Qué GPU deberías conseguir para Gemma 4?

NVIDIA RTX 4060 (8GB)

E2B, E4B

Nivel de entrada para Gemma 4. Maneja E4B en INT4 cómodamente.

NVIDIA RTX 4070 Ti Super (16GB)

E2B, E4B, 26B (INT4)

Puede ejecutar el modelo 26B MoE en cuantización INT4.

NVIDIA RTX 4090 (24GB)

Todos los modelos (cuantizados)

El punto ideal. Ejecuta todos los modelos en INT4, y 26B en INT8.

NVIDIA A100 (40/80GB)

Todos los modelos (todas las precisiones)

GPU profesional/cloud. FP16 completo para todos los modelos en la variante de 80GB.

Apple M3 Max (36/48GB)

E2B, E4B, 26B (INT4/INT8)

Memoria unificada. Excelente con el framework MLX.

Apple M2/M3 Ultra (64-192GB)

Todos los modelos (todas las precisiones)

Memoria unificada masiva que maneja incluso 31B en FP16.

Impacto de la longitud de contexto en la memoria

Las ventanas de contexto más largas requieren memoria adicional más allá de los pesos del modelo. La caché KV crece linealmente con la longitud del contexto:

Context	E4B	26B MoE	31B Dense
8K	+0.2 GB	+0.5 GB	+0.6 GB
32K	+0.8 GB	+2.0 GB	+2.4 GB
128K	+3.2 GB	+8.0 GB	+9.6 GB
256K	N/A	+16 GB	+19.2 GB

Estos son requisitos aproximados de VRAM adicional además del modelo base. El uso real depende del tamaño del lote y la implementación.

Preguntas frecuentes sobre hardware

¿Puedo ejecutar Gemma 4 sin una GPU?

Sí. Todas las variantes de Gemma 4 soportan inferencia en CPU vía Ollama o llama.cpp. E2B y E4B funcionan a velocidades razonables en CPUs modernas. Los modelos más grandes serán lentos pero funcionales. Asegúrate de tener suficiente RAM del sistema — aproximadamente 2 veces el tamaño del archivo del modelo.

¿Cuánta VRAM necesito para Gemma 4?

En cuantización INT4: E2B necesita ~1.5GB, E4B ~3GB, 26B MoE ~16GB, 31B Denso ~18GB. En FP16 (precisión completa): E2B ~4GB, E4B ~8GB, 26B ~52GB, 31B ~62GB. La mayoría de los usuarios deberían usar cuantización INT4 o INT8.

¿Puedo ejecutar el Gemma 4 31B en una RTX 4090?

Sí, en cuantización INT4 (~18GB VRAM). Los 24GB de la RTX 4090 son suficientes. Para mayor precisión necesitarás más VRAM — considera una A100 80GB o configuraciones multi-GPU.

¿Qué pasa con Mac con Apple Silicon?

Las Macs con Apple Silicon y memoria unificada son excelentes para Gemma 4. Una M1/M2 con 16GB ejecuta bien E4B. La M3 Max (36-48GB) maneja el 26B MoE. La M2/M3 Ultra (64GB+) puede ejecutar el modelo 31B. Usa MLX u Ollama para el mejor rendimiento.

¿La cuantización afecta la calidad?

La cuantización INT8 típicamente preserva el 98-99% de la calidad. INT4 preserva el 93-95%. Para la mayoría de los casos de uso prácticos, INT4 es perfectamente aceptable. Solo las tareas de investigación o evaluación que requieren reproducibilidad exacta se benefician de FP16.

¿Puedo dividir Gemma 4 entre múltiples GPUs?

Sí. vLLM, llama.cpp y otros frameworks admiten paralelismo de tensores entre múltiples GPUs. Esto te permite ejecutar el modelo 31B con mayor precisión al dividirlo entre 2 RTX 4090 (48GB totales) o configuraciones similares.

¿Listo para desplegar?

Ahora que conoces los requisitos, configura Gemma 4 en tu hardware.

Guía de despliegue Guía de Ollama Descargar modelos