Gemma 4

배포 가이드

자신의 하드웨어에서 Gemma 4를 로컬로 실행하세요. 원클릭 설치부터 프로덕션급 서빙 프레임워크까지 다양한 배포 옵션을 제공합니다.

Ollama

Gemma 4를 로컬에서 실행하는 가장 간단한 방법입니다. 한 줄의 명령어로 모든 변형을 다운로드하고 자동 하드웨어 최적화와 함께 서빙합니다.

Ollama 설치

curl -fsSL https://ollama.com/install.sh | sh

모델 실행

# Gemma 4 31B (Dense) - 最强性能
ollama run gemma4:31b

# Gemma 4 26B (MoE) - 效率优先
ollama run gemma4:26b

# Gemma 4 E4B - 移动/轻量
ollama run gemma4:e4b

# Gemma 4 E2B - 边缘设备
ollama run gemma4:e2b

LM Studio

Gemma 4 모델을 다운로드, 구성, 채팅할 수 있는 시각적 인터페이스를 갖춘 데스크톱 애플리케이션입니다. 초보자에게 적합합니다.

  1. Download LM Studio from lmstudio.ai
  2. Search for "Gemma 4" in the model browser
  3. Select a quantized version matching your VRAM
  4. Click Download and wait for completion
  5. Start chatting in the built-in interface

vLLM

PagedAttention, 연속 배치 처리, OpenAI 호환 API 엔드포인트를 제공하는 고처리량 프로덕션 서빙 엔진입니다.

pip install vllm
vllm serve google/gemma-4-31b --max-model-len 32768

llama.cpp

GGUF 양자화 모델을 지원하는 최적화된 C++ 추론 엔진입니다. CPU 또는 CPU/GPU 혼합 구성에서 Gemma 4를 실행할 수 있습니다.

# Build llama.cpp
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build && cmake --build build

# Run with GGUF model
./build/bin/llama-cli -m gemma-4-31b-Q4_K_M.gguf -p "Hello"

MLX

Apple이 개발한 Apple Silicon 전용 프레임워크입니다. 통합 메모리를 갖춘 M 시리즈 칩에 최적화되어 Mac 하드웨어에서 뛰어난 성능을 제공합니다.

pip install mlx-lm
mlx_lm.generate --model google/gemma-4-31b --prompt "Hello"

VRAM 요구사항

각 모델 변형별 양자화 수준에 따른 예상 VRAM 사용량입니다.

ModelBF16INT8INT4
E2B4 GB2.5 GB1.5 GB
E4B8 GB5 GB3 GB
26B MoE52 GB28 GB16 GB
31B Dense62 GB33 GB18 GB

모델 다운로드

공식 소스에서 Gemma 4 모델 가중치를 받으세요.