Gemma 4 하드웨어 요구사항

Gemma 4의 가장 큰 강점 중 하나는 모델 크기 범위입니다 — 스마트폰에서 실행되는 초소형 E2B부터 고급 GPU가 필요한 플래그십 31B까지. 이 가이드는 각 변형의 정확한 하드웨어 요구사항을 분석하여 설정에 맞는 올바른 모델을 선택할 수 있도록 돕습니다.

하드웨어 요구사항은 세 가지 요소에 따라 달라집니다. 모델 변형, 양자화 수준, 컨텍스트 길이입니다. 더 낮은 양자화와 더 짧은 컨텍스트는 요구사항을 크게 줄여 다양한 하드웨어에서 Gemma 4를 이용할 수 있게 해줍니다.

빠른 참조: 최소 요구사항

모델	파라미터	VRAM (FP16)	VRAM (INT8)	VRAM (INT4)	디스크 공간
E2B	2B	4 GB	2.5 GB	1.5 GB	~1.5–4 GB
E4B	4B	8 GB	5 GB	3 GB	~3–8 GB
26B MoE	26B	52 GB	28 GB	16 GB	~15–52 GB
31B Dense	31B	62 GB	33 GB	18 GB	~18–62 GB

모델별 상세 요구사항

Gemma 4 E2B — 엣지 & 모바일

VRAM

1.5–4 GB

RAM

시스템 RAM 최소 4 GB

Disk

약 1.5 GB (양자화) / 약 4 GB (FP16)

GPU

전용 GPU 불필요. CPU, 모바일 NPU, 내장 GPU에서 실행됩니다.

Devices: 스마트폰(iOS/Android), Raspberry Pi 5, 태블릿, 엣지 기기

E2B 모델은 자원이 제한된 환경을 위해 특별히 설계되었습니다. 모바일 NPU와 심지어 CPU 전용 구성에서도 효율적으로 실행됩니다. 프라이버시와 지연 시간이 우선인 온디바이스 추론에 이상적입니다.

Gemma 4 E4B — 노트북 & 데스크톱

VRAM

3–8 GB

RAM

시스템 RAM 최소 8 GB

Disk

약 3 GB (양자화) / 약 8 GB (FP16)

GPU

4GB 이상 VRAM GPU, 또는 충분한 RAM을 갖춘 CPU 전용

Devices: 노트북, 데스크톱, Apple Silicon Mac(M1 이상), 저가 클라우드 인스턴스

대부분의 개인 사용에 이상적인 지점입니다. 8GB 통합 메모리의 MacBook Air M1에서 원활하게 실행됩니다. Windows/Linux에서는 RTX 3060(12GB)이 쉽게 처리합니다. CPU 추론도 가능하지만 더 느립니다.

Gemma 4 26B A4B (MoE) — 데스크톱 GPU

VRAM

16–52 GB

RAM

시스템 RAM 32 GB 권장

Disk

약 15 GB (양자화) / 약 52 GB (FP16)

GPU

RTX 4090 (24GB), RTX A5000, A100 (40/80GB), 또는 Apple M2 Ultra 이상

Devices: 고급 데스크톱, 워크스테이션, 클라우드 GPU 인스턴스(A100, L4, H100)

총 26B 파라미터를 가지고 있지만, MoE 아키텍처는 추론당 4B 파라미터만 활성화합니다. INT4 양자화는 VRAM 사용량을 약 16GB로 낮춰 RTX 4090에서 사용할 수 있게 합니다. FP16에는 48GB 이상 VRAM 또는 멀티 GPU 구성이 필요합니다.

Gemma 4 31B Dense — 워크스테이션 & 서버

VRAM

18–62 GB

RAM

시스템 RAM 64 GB 권장

Disk

약 18 GB (양자화) / 약 62 GB (FP16)

GPU

RTX 4090 (INT4에서 24GB), A100 (40/80GB), H100, 또는 Apple M2 Ultra 이상

Devices: 워크스테이션, 서버, 클라우드 GPU 인스턴스, 멀티 GPU 구성

플래그십 모델은 풀 정밀도에서 상당한 하드웨어를 요구하지만 INT4 양자화에서는 단일 RTX 4090으로도 사용할 수 있습니다. 대규모 프로덕션 서빙에는 A100 또는 H100 GPU가 권장됩니다. 64GB 이상 통합 메모리를 갖춘 Apple Silicon Mac은 MLX를 통해 실행할 수 있습니다.

권장 GPU

Gemma 4에 어떤 GPU를 사야 할까요?

NVIDIA RTX 4060 (8GB)

E2B, E4B

Gemma 4의 엔트리 레벨. INT4 E4B를 편안하게 처리합니다.

NVIDIA RTX 4070 Ti Super (16GB)

E2B, E4B, 26B (INT4)

INT4 양자화로 26B MoE 모델을 실행할 수 있습니다.

NVIDIA RTX 4090 (24GB)

모든 모델 (양자화)

최적의 지점. 모든 모델을 INT4로 실행하고 26B는 INT8로 실행합니다.

NVIDIA A100 (40/80GB)

모든 모델 (모든 정밀도)

전문가/클라우드 GPU입니다. 80GB 버전에서 모든 모델의 풀 FP16이 가능합니다.

Apple M3 Max (36/48GB)

E2B, E4B, 26B (INT4/INT8)

통합 메모리. MLX 프레임워크와 함께 훌륭합니다.

Apple M2/M3 Ultra (64-192GB)

모든 모델 (모든 정밀도)

막대한 통합 메모리로 FP16에서 31B도 처리합니다.

컨텍스트 길이가 메모리에 미치는 영향

더 긴 컨텍스트 윈도우는 모델 가중치 외에 추가 메모리가 필요합니다. KV 캐시는 컨텍스트 길이에 비례하여 선형적으로 증가합니다.

Context	E4B	26B MoE	31B Dense
8K	+0.2 GB	+0.5 GB	+0.6 GB
32K	+0.8 GB	+2.0 GB	+2.4 GB
128K	+3.2 GB	+8.0 GB	+9.6 GB
256K	N/A	+16 GB	+19.2 GB

이는 기본 모델 위에 추가되는 대략적인 VRAM 요구사항입니다. 실제 사용량은 배치 크기와 구현에 따라 다릅니다.

하드웨어 FAQ

GPU 없이 Gemma 4를 실행할 수 있나요?

네. 모든 Gemma 4 변형은 Ollama나 llama.cpp를 통해 CPU 추론을 지원합니다. E2B와 E4B는 최신 CPU에서 합리적인 속도로 실행됩니다. 더 큰 모델은 느리지만 동작합니다. 모델 파일 크기의 약 2배에 해당하는 충분한 시스템 RAM을 확보하세요.

Gemma 4에 얼마나 많은 VRAM이 필요한가요?

INT4 양자화 기준: E2B 약 1.5GB, E4B 약 3GB, 26B MoE 약 16GB, 31B Dense 약 18GB. FP16(풀 정밀도) 기준: E2B 약 4GB, E4B 약 8GB, 26B 약 52GB, 31B 약 62GB. 대부분의 사용자는 INT4 또는 INT8 양자화를 사용하는 것이 좋습니다.

RTX 4090에서 Gemma 4 31B를 실행할 수 있나요?

네, INT4 양자화(약 18GB VRAM)로 가능합니다. RTX 4090의 24GB면 충분합니다. 더 높은 정밀도를 원한다면 A100 80GB 또는 멀티 GPU 구성 등 더 많은 VRAM이 필요합니다.

Apple Silicon Mac은 어떤가요?

통합 메모리를 갖춘 Apple Silicon Mac은 Gemma 4에 탁월합니다. 16GB의 M1/M2는 E4B를 잘 실행합니다. M3 Max(36-48GB)는 26B MoE를 처리합니다. M2/M3 Ultra(64GB 이상)는 31B 모델을 실행할 수 있습니다. 최고 성능을 위해 MLX나 Ollama를 사용하세요.

양자화는 품질에 영향을 미치나요?

INT8 양자화는 일반적으로 품질의 98-99%를 보존합니다. INT4는 93-95%를 보존합니다. 대부분의 실무 사용 사례에서 INT4는 충분히 수용 가능합니다. 정확한 재현이 필요한 연구나 평가 작업에서만 FP16의 이점이 있습니다.

Gemma 4를 여러 GPU에 분산할 수 있나요?

네. vLLM, llama.cpp 등 여러 프레임워크가 멀티 GPU 텐서 병렬 처리를 지원합니다. 이를 통해 31B 모델을 2x RTX 4090(총 48GB) 또는 유사한 구성에 분산하여 더 높은 정밀도로 실행할 수 있습니다.

배포할 준비가 되셨나요?

이제 요구사항을 알았으니 하드웨어에 Gemma 4를 설정하세요.

배포 가이드 Ollama 가이드 모델 다운로드