배포 가이드

자신의 하드웨어에서 Gemma 4를 로컬로 실행하세요. 원클릭 설치부터 프로덕션급 서빙 프레임워크까지 다양한 배포 옵션을 제공합니다.

Ollama

Gemma 4를 로컬에서 실행하는 가장 간단한 방법입니다. 한 줄의 명령어로 모든 변형을 다운로드하고 자동 하드웨어 최적화와 함께 서빙합니다.

Ollama 설치

curl -fsSL https://ollama.com/install.sh | sh

모델 실행

# Gemma 4 31B (Dense) - 最强性能
ollama run gemma4:31b

# Gemma 4 26B (MoE) - 效率优先
ollama run gemma4:26b

# Gemma 4 E4B - 移动/轻量
ollama run gemma4:e4b

# Gemma 4 E2B - 边缘设备
ollama run gemma4:e2b

LM Studio

Gemma 4 모델을 다운로드, 구성, 채팅할 수 있는 시각적 인터페이스를 갖춘 데스크톱 애플리케이션입니다. 초보자에게 적합합니다.

Download LM Studio from lmstudio.ai
Search for "Gemma 4" in the model browser
Select a quantized version matching your VRAM
Click Download and wait for completion
Start chatting in the built-in interface

vLLM

PagedAttention, 연속 배치 처리, OpenAI 호환 API 엔드포인트를 제공하는 고처리량 프로덕션 서빙 엔진입니다.

pip install vllm
vllm serve google/gemma-4-31b --max-model-len 32768

llama.cpp

GGUF 양자화 모델을 지원하는 최적화된 C++ 추론 엔진입니다. CPU 또는 CPU/GPU 혼합 구성에서 Gemma 4를 실행할 수 있습니다.

# Build llama.cpp
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build && cmake --build build

# Run with GGUF model
./build/bin/llama-cli -m gemma-4-31b-Q4_K_M.gguf -p "Hello"

MLX

Apple이 개발한 Apple Silicon 전용 프레임워크입니다. 통합 메모리를 갖춘 M 시리즈 칩에 최적화되어 Mac 하드웨어에서 뛰어난 성능을 제공합니다.

pip install mlx-lm
mlx_lm.generate --model google/gemma-4-31b --prompt "Hello"

VRAM 요구사항

각 모델 변형별 양자화 수준에 따른 예상 VRAM 사용량입니다.

Model	BF16	INT8	INT4
E2B	4 GB	2.5 GB	1.5 GB
E4B	8 GB	5 GB	3 GB
26B MoE	52 GB	28 GB	16 GB
31B Dense	62 GB	33 GB	18 GB

배포 가이드

Ollama

Ollama 설치

모델 실행

LM Studio

vLLM

llama.cpp

MLX

VRAM 요구사항

모델 다운로드

Hugging Face

Kaggle

Ollama

ModelScope