Gemma 4 모델 다운로드

Gemma 4 모델 가중치는 여러 공식 소스에서 무료로 제공됩니다. 연구용 풀 정밀도 가중치, 로컬 추론용 양자화 GGUF 파일, Ollama용 사전 패키징 모델 중 무엇이 필요하든 이 가이드가 모든 다운로드 옵션을 다룹니다.

모든 Gemma 4 모델은 Apache 2.0 라이선스로 배포되며, 이는 상업 용도를 포함한 모든 목적에 대해 자유롭게 다운로드, 사용, 수정, 재배포할 수 있음을 의미합니다.

공식 다운로드 소스

Hugging Face

Gemma 4 모델 가중치를 위한 주요 플랫폼입니다. SafeTensors, GGUF, GPTQ 양자화 버전 등 여러 포맷으로 모든 변형을 제공합니다. git 기반 다운로드, Hugging Face CLI, 직접 브라우저 다운로드를 지원합니다.

• 모든 모델 변형과 크기
• 다양한 양자화 포맷
• Git LFS 및 CLI 다운로드
• 커뮤니티 기여 양자화
• 문서화된 모델 카드

Kaggle

Google의 데이터 과학 플랫폼이 공식 Gemma 4 모델 가중치를 호스팅합니다. Kaggle 생태계에 익숙한 사용자에게 편리하며, 빠른 실험을 위한 노트북 통합을 제공합니다.

• 공식 Google 배포
• 노트북 통합
• 버전 추적
• 직접 다운로드
• downloadGuide.sources.kaggle.features.4

Ollama Library

Ollama의 로컬 추론에 최적화되어 사전 패키징된 Gemma 4 모델입니다. 한 줄 명령 다운로드 및 실행. 모델은 하드웨어에 맞게 자동 양자화·최적화됩니다.

• 한 줄 명령 설치
• 하드웨어 자동 최적화
• 모든 변형 제공
• 자동 업데이트
• downloadGuide.sources.ollama.features.4

ModelScope (魔搭社区)

아시아 지역 사용자에게 빠른 다운로드 속도를 제공하는 중국 기반 모델 호스팅 플랫폼입니다. 공식 Gemma 4 모델을 미러링하며 중국어로 된 전체 문서를 제공합니다.

• 중국/아시아 지역 빠른 다운로드
• 중국어 문서
• Git 기반 다운로드
• 커뮤니티 모델
• downloadGuide.sources.modelscope.features.4

모델 포맷 가이드

Gemma 4에 제공되는 다양한 모델 파일 포맷 이해하기:

SafeTensors (.safetensors)

Hugging Face의 기본 포맷입니다. 코드 실행 취약점을 방지하도록 설계된 안전하고 빠른 로딩 텐서입니다. Hugging Face Transformers, vLLM 및 기타 Python 기반 프레임워크와 함께 사용됩니다.

연구, 파인튜닝, Python 프레임워크, vLLM 서빙

GGUF (.gguf)

llama.cpp와 Ollama의 표준 포맷입니다. 모델 크기와 메모리 요구사항을 줄이기 위해 다양한 양자화 수준(Q4, Q5, Q8 등)을 지원합니다. CPU 및 CPU/GPU 혼합 추론에 최적화되어 있습니다.

로컬 추론, Ollama, llama.cpp, KoboldCpp, LM Studio

GPTQ

높은 정확도를 유지하면서 VRAM 요구사항을 크게 줄이는 GPU 최적화 양자화 포맷입니다. Hugging Face의 커뮤니티 기여를 통해 이용할 수 있습니다.

VRAM 절감이 필요한 GPU 추론, 프로덕션 서빙

MLX 포맷

Apple Silicon(M1/M2/M3/M4)에 최적화된 Apple의 네이티브 ML 포맷입니다. 통합 메모리 아키텍처를 활용하여 Mac 하드웨어에서 효율적인 추론을 제공합니다.

Apple Silicon Mac, MLX 프레임워크

양자화 가이드

양자화는 약간의 정확도를 희생하여 모델 크기와 메모리 사용량을 줄입니다. Gemma 4에서 다양한 수준이 어떻게 비교되는지 살펴봅니다.

Format	Bits	Quality	Notes
BF16 / FP16 (풀 정밀도)	16비트	100%	정확도 손실 없는 풀 모델 품질입니다. 가장 많은 VRAM과 디스크 공간이 필요합니다.
INT8 / Q8	8비트	약 98-99%	최소한의 품질 손실. FP16 대비 VRAM 요구사항이 절반으로 줄어듭니다. 대부분의 GPU 배포에 권장됩니다.
Q5_K_M	5비트	약 95-97%	품질과 크기의 좋은 균형입니다. GGUF 포맷 로컬 추론에서 인기 있는 선택입니다.
INT4 / Q4_K_M	4비트	약 93-95%	대부분의 사용 사례에 수용 가능한 품질로 크기가 크게 줄어듭니다. 일반 하드웨어에서 더 큰 모델을 실행할 수 있게 해줍니다.

명령줄로 다운로드

Hugging Face CLI

Hugging Face CLI를 설치하고 모델을 직접 다운로드하세요.

pip install huggingface_hub

# Download a specific model
huggingface-cli download google/gemma-4-31b

# Download GGUF quantized version
huggingface-cli download google/gemma-4-31b-GGUF \
  --include "gemma-4-31b-Q4_K_M.gguf"

Git LFS

Git Large File Storage로 모델 저장소를 복제하세요.

git lfs install
git clone https://huggingface.co/google/gemma-4-31b

Ollama CLI

모델을 Ollama로 바로 가져오세요.

# Pull any variant
ollama pull gemma4:e4b
ollama pull gemma4:31b
ollama pull gemma4:26b

다운로드 FAQ

Gemma 4를 다운로드하기 가장 좋은 곳은 어디인가요?

Hugging Face가 모든 포맷과 변형을 갖춘 가장 포괄적인 소스입니다. 한 줄 명령 로컬 설정에는 Ollama를 사용하세요. 중국 사용자는 ModelScope가 더 빠른 다운로드 속도를 제공합니다.

어떤 포맷을 다운로드해야 하나요?

Ollama나 llama.cpp용이라면 GGUF 파일을 다운로드하세요. Python/vLLM용이라면 SafeTensors 포맷을 사용하세요. Apple Silicon Mac용이라면 MLX 포맷을 사용하세요. 잘 모르겠다면 포맷 선택을 자동으로 처리해 주는 Ollama로 시작하세요.

Gemma 4 모델 파일은 얼마나 큰가요?

풀 정밀도 크기: E2B(약 4GB), E4B(약 8GB), 26B MoE(약 52GB), 31B Dense(약 62GB). Q4 양자화 버전은 약 4배 더 작습니다. Ollama의 기본 다운로드는 최적화된 양자화를 사용합니다.

다운로드에 Hugging Face 계정이 필요한가요?

아니요. Gemma 4 모델은 Apache 2.0 라이선스로 누구나 접근할 수 있습니다. 계정 없이 다운로드할 수 있지만, 계정이 있으면 더 빠른 다운로드와 Hugging Face CLI 접근이 가능합니다.

GGUF 파일이란 무엇인가요?

GGUF(GPT-Generated Unified Format)는 llama.cpp와 Ollama에서 효율적인 로컬 추론을 위해 설계된 바이너리 포맷입니다. 다양한 양자화 수준을 지원하여 정확도와 더 작은 파일 크기·더 낮은 메모리 사용량을 맞바꿀 수 있습니다.

중국에서 Gemma 4를 다운로드할 수 있나요?

네. ModelScope(魔搭社区)가 중국 내에서 빠른 다운로드 속도로 Gemma 4 모델을 미러링합니다. 또는 Hugging Face 다운로드를 위해 미러나 프록시를 사용할 수도 있습니다.

downloadGuide.faq.items.6.q

downloadGuide.faq.items.6.a

downloadGuide.faq.items.7.q

downloadGuide.faq.items.7.a

downloadGuide.faq.items.8.q

downloadGuide.faq.items.8.a

downloadGuide.faq.items.9.q

downloadGuide.faq.items.9.a

다운로드 및 배포

Gemma 4 모델 가중치를 받아 배포를 시작하세요. 단계별 설정 안내를 위해 배포 가이드를 확인하세요.

배포 가이드 모델 비교 먼저 온라인으로 체험