Requisitos de Hardware do Gemma 4

Uma das maiores forças do Gemma 4 é sua variedade de tamanhos de modelo — do ultra-compacto E2B que roda em um smartphone ao carro-chefe 31B que requer uma GPU de alta performance. Este guia detalha os requisitos exatos de hardware para cada variante para que você possa escolher o modelo certo para sua configuração.

As necessidades de hardware dependem de três fatores: variante do modelo, nível de quantização e comprimento do contexto. Quantização mais baixa e contexto mais curto reduzem os requisitos significativamente, tornando o Gemma 4 acessível em uma ampla gama de hardware.

Referência Rápida: Requisitos Mínimos

Modelo	Parâmetros	VRAM (FP16)	VRAM (INT8)	VRAM (INT4)	Espaço em Disco
E2B	2B	4 GB	2.5 GB	1.5 GB	~1.5–4 GB
E4B	4B	8 GB	5 GB	3 GB	~3–8 GB
26B MoE	26B	52 GB	28 GB	16 GB	~15–52 GB
31B Dense	31B	62 GB	33 GB	18 GB	~18–62 GB

Requisitos Detalhados por Modelo

Gemma 4 E2B — Edge e Mobile

VRAM

1,5–4 GB

RAM

4 GB de RAM do sistema no mínimo

Disk

~1,5 GB (quantizado) / ~4 GB (FP16)

GPU

Nenhuma GPU dedicada necessária. Roda em CPU, NPU móvel ou GPU integrada.

Devices: Smartphones (iOS/Android), Raspberry Pi 5, tablets, aparelhos edge

O modelo E2B é projetado especificamente para ambientes com recursos limitados. Roda eficientemente em NPUs móveis e até mesmo em configurações apenas com CPU. Ideal para inferência no dispositivo onde privacidade e latência são prioridades.

Gemma 4 E4B — Laptop e Desktop

VRAM

3–8 GB

RAM

8 GB de RAM do sistema no mínimo

Disk

~3 GB (quantizado) / ~8 GB (FP16)

GPU

Qualquer GPU com 4GB+ de VRAM, ou apenas CPU com RAM suficiente

Devices: Laptops, desktops, Mac com Apple Silicon (M1+), instâncias de nuvem de baixo custo

O ponto ideal para a maioria do uso pessoal. Roda bem em um MacBook Air M1 com 8GB de memória unificada. No Windows/Linux, uma RTX 3060 (12GB) o lida facilmente. A inferência em CPU é viável, mas mais lenta.

Gemma 4 26B A4B (MoE) — GPU de Desktop

VRAM

16–52 GB

RAM

32 GB de RAM do sistema recomendados

Disk

~15 GB (quantizado) / ~52 GB (FP16)

GPU

RTX 4090 (24GB), RTX A5000, A100 (40/80GB) ou Apple M2 Ultra+

Devices: Desktops de alta performance, workstations, instâncias de GPU em nuvem (A100, L4, H100)

Apesar de ter 26B de parâmetros totais, a arquitetura MoE ativa apenas 4B de parâmetros por inferência. A quantização INT4 reduz o uso de VRAM para ~16GB, tornando-o acessível em uma RTX 4090. Para FP16, você precisará de 48GB+ de VRAM ou configurações multi-GPU.

Gemma 4 31B Dense — Workstation e Servidor

VRAM

18–62 GB

RAM

64 GB de RAM do sistema recomendados

Disk

~18 GB (quantizado) / ~62 GB (FP16)

GPU

RTX 4090 (24GB para INT4), A100 (40/80GB), H100 ou Apple M2 Ultra+

Devices: Workstations, servidores, instâncias de GPU em nuvem, configurações multi-GPU

O modelo carro-chefe requer hardware sério para precisão total, mas é acessível com quantização INT4 em uma única RTX 4090. Para serviço em produção em escala, GPUs A100 ou H100 são recomendadas. Macs com Apple Silicon e 64GB+ de memória unificada podem executá-lo via MLX.

GPUs Recomendadas

Qual GPU você deve comprar para o Gemma 4?

NVIDIA RTX 4060 (8GB)

E2B, E4B

Nível de entrada para o Gemma 4. Lida confortavelmente com E4B em INT4.

NVIDIA RTX 4070 Ti Super (16GB)

E2B, E4B, 26B (INT4)

Pode rodar o modelo 26B MoE com quantização INT4.

NVIDIA RTX 4090 (24GB)

Todos os modelos (quantizados)

O ponto ideal. Roda todos os modelos em INT4, e 26B em INT8.

NVIDIA A100 (40/80GB)

Todos os modelos (todas as precisões)

GPU profissional/de nuvem. FP16 total para todos os modelos na variante de 80GB.

Apple M3 Max (36/48GB)

E2B, E4B, 26B (INT4/INT8)

Memória unificada. Ótima com o framework MLX.

Apple M2/M3 Ultra (64-192GB)

Todos os modelos (todas as precisões)

Memória unificada massiva lida até mesmo com 31B em FP16.

Impacto do Comprimento do Contexto na Memória

Janelas de contexto mais longas requerem memória adicional além dos pesos do modelo. O cache KV cresce linearmente com o comprimento do contexto:

Context	E4B	26B MoE	31B Dense
8K	+0.2 GB	+0.5 GB	+0.6 GB
32K	+0.8 GB	+2.0 GB	+2.4 GB
128K	+3.2 GB	+8.0 GB	+9.6 GB
256K	N/A	+16 GB	+19.2 GB

Estes são requisitos aproximados de VRAM adicional além do modelo base. O uso real depende do tamanho do batch e da implementação.

FAQ de Hardware

Posso rodar o Gemma 4 sem uma GPU?

Sim. Todas as variantes do Gemma 4 suportam inferência em CPU via Ollama ou llama.cpp. E2B e E4B rodam em velocidades razoáveis em CPUs modernas. Modelos maiores serão lentos, mas funcionais. Certifique-se de ter RAM do sistema suficiente — aproximadamente 2x o tamanho do arquivo do modelo.

Quanta VRAM eu preciso para o Gemma 4?

Com quantização INT4: E2B precisa de ~1,5GB, E4B ~3GB, 26B MoE ~16GB, 31B Dense ~18GB. Em FP16 (precisão total): E2B ~4GB, E4B ~8GB, 26B ~52GB, 31B ~62GB. A maioria dos usuários deve usar quantização INT4 ou INT8.

Posso rodar o Gemma 4 31B em uma RTX 4090?

Sim, com quantização INT4 (~18GB de VRAM). Os 24GB da RTX 4090 são suficientes para isso. Para precisão maior, você precisará de mais VRAM — considere uma A100 80GB ou configurações multi-GPU.

E quanto a Macs com Apple Silicon?

Macs com Apple Silicon e memória unificada são excelentes para o Gemma 4. Um M1/M2 com 16GB roda E4B bem. O M3 Max (36-48GB) lida com o 26B MoE. O M2/M3 Ultra (64GB+) pode rodar o modelo 31B. Use MLX ou Ollama para melhor desempenho.

A quantização afeta a qualidade?

A quantização INT8 normalmente preserva 98-99% da qualidade. INT4 preserva 93-95%. Para a maioria dos casos de uso práticos, INT4 é perfeitamente aceitável. Apenas tarefas de pesquisa ou avaliação que exigem reprodutibilidade exata se beneficiam do FP16.

Posso dividir o Gemma 4 entre várias GPUs?

Sim. vLLM, llama.cpp e outros frameworks suportam paralelismo de tensores entre várias GPUs. Isso permite rodar o modelo 31B com precisão maior dividindo-o entre 2x RTX 4090s (48GB total) ou configurações similares.

requirementsPage.faq.items.6.q

requirementsPage.faq.items.6.a

requirementsPage.faq.items.7.q

requirementsPage.faq.items.7.a

requirementsPage.faq.items.8.q

requirementsPage.faq.items.8.a

requirementsPage.faq.items.9.q

requirementsPage.faq.items.9.a

Pronto para Implantar?

Agora que você conhece os requisitos, configure o Gemma 4 em seu hardware.

Guia de Implantação Guia do Ollama Baixar Modelos