배포 가이드
자신의 하드웨어에서 Gemma 4를 로컬로 실행하세요. 원클릭 설치부터 프로덕션급 서빙 프레임워크까지 다양한 배포 옵션을 제공합니다.
Ollama
Gemma 4를 로컬에서 실행하는 가장 간단한 방법입니다. 한 줄의 명령어로 모든 변형을 다운로드하고 자동 하드웨어 최적화와 함께 서빙합니다.
Ollama 설치
curl -fsSL https://ollama.com/install.sh | sh모델 실행
# Gemma 4 31B (Dense) - 最强性能
ollama run gemma4:31b
# Gemma 4 26B (MoE) - 效率优先
ollama run gemma4:26b
# Gemma 4 E4B - 移动/轻量
ollama run gemma4:e4b
# Gemma 4 E2B - 边缘设备
ollama run gemma4:e2bLM Studio
Gemma 4 모델을 다운로드, 구성, 채팅할 수 있는 시각적 인터페이스를 갖춘 데스크톱 애플리케이션입니다. 초보자에게 적합합니다.
- Download LM Studio from lmstudio.ai
- Search for "Gemma 4" in the model browser
- Select a quantized version matching your VRAM
- Click Download and wait for completion
- Start chatting in the built-in interface
vLLM
PagedAttention, 연속 배치 처리, OpenAI 호환 API 엔드포인트를 제공하는 고처리량 프로덕션 서빙 엔진입니다.
pip install vllm
vllm serve google/gemma-4-31b --max-model-len 32768llama.cpp
GGUF 양자화 모델을 지원하는 최적화된 C++ 추론 엔진입니다. CPU 또는 CPU/GPU 혼합 구성에서 Gemma 4를 실행할 수 있습니다.
# Build llama.cpp
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build && cmake --build build
# Run with GGUF model
./build/bin/llama-cli -m gemma-4-31b-Q4_K_M.gguf -p "Hello"MLX
Apple이 개발한 Apple Silicon 전용 프레임워크입니다. 통합 메모리를 갖춘 M 시리즈 칩에 최적화되어 Mac 하드웨어에서 뛰어난 성능을 제공합니다.
pip install mlx-lm
mlx_lm.generate --model google/gemma-4-31b --prompt "Hello"VRAM 요구사항
각 모델 변형별 양자화 수준에 따른 예상 VRAM 사용량입니다.
| Model | BF16 | INT8 | INT4 |
|---|---|---|---|
| E2B | 4 GB | 2.5 GB | 1.5 GB |
| E4B | 8 GB | 5 GB | 3 GB |
| 26B MoE | 52 GB | 28 GB | 16 GB |
| 31B Dense | 62 GB | 33 GB | 18 GB |
모델 다운로드
공식 소스에서 Gemma 4 모델 가중치를 받으세요.