Gemma 4

Hugging Face에서 Gemma 4 GGUF와 모델 가중치 다운로드

Gemma 4 모델 가중치는 Hugging Face, Kaggle, Ollama, ModelScope에서 무료로 제공됩니다. 본 가이드는 E2B, E4B, 26B MoE, 31B Dense의 모든 변형과 풀 정밀도 SafeTensors, 양자화 GGUF (Q4 / Q5 / Q8), GPTQ, MLX의 모든 포맷을 직접 다운로드 링크 및 파일 크기와 함께 다룹니다.

모든 Gemma 4 모델은 Apache 2.0 라이선스로 배포되며, 이는 상업 용도를 포함한 모든 목적에 대해 자유롭게 다운로드, 사용, 수정, 재배포할 수 있음을 의미합니다.

Gemma 4 GGUF Hugging Face 다운로드 크기

Hugging Face의 unsloth 공식 Gemma 4 GGUF 리포지토리에서 읽어온 실제 파일 크기 — Gemma 4 GGUF 최다 다운로드 퍼블리셔. 리포지토리 경로를 클릭하여 파일 목록을 확인하세요.

모델전체 파라미터Q4_K_MQ5_K_MQ8_0BF16Hugging Face 리포지토리
Gemma 4 E2B-it5B3.11 GB3.36 GB5.05 GB9.31 GBunsloth/gemma-4-E2B-it-GGUF
Gemma 4 E4B-it8B4.98 GB5.48 GB8.19 GB15.1 GBunsloth/gemma-4-E4B-it-GGUF
Gemma 4 26B-A4B-it27B (MoE, 4B 활성)16.9 GB21.2 GB26.9 GBunsloth/gemma-4-26B-A4B-it-GGUF
Gemma 4 31B-it33B (Dense)18.3 GB21.7 GB32.6 GBunsloth/gemma-4-31B-it-GGUF

크기는 2026-04-21에 unsloth의 Hugging Face 리포지토리에서 확인되었습니다. 풀 정밀도 SafeTensors는 공식 google/gemma-4-E2B, -E4B, -26B-A4B, -31B 리포지토리를 사용하세요 (명령어 튜닝 버전은 -it 접미사). 26B-A4B의 Q4 / Q5 파일은 unsloth가 배포하는 Unsloth Dynamic (UD) 버전이며, 크기는 Q4_K_M / Q5_K_M 동급입니다.

모델 포맷 가이드

Gemma 4에 제공되는 다양한 모델 파일 포맷 이해하기:

SafeTensors (.safetensors)

Hugging Face의 기본 포맷입니다. 코드 실행 취약점을 방지하도록 설계된 안전하고 빠른 로딩 텐서입니다. Hugging Face Transformers, vLLM 및 기타 Python 기반 프레임워크와 함께 사용됩니다.

연구, 파인튜닝, Python 프레임워크, vLLM 서빙

GGUF (.gguf)

llama.cpp와 Ollama의 표준 포맷입니다. 모델 크기와 메모리 요구사항을 줄이기 위해 다양한 양자화 수준(Q4, Q5, Q8 등)을 지원합니다. CPU 및 CPU/GPU 혼합 추론에 최적화되어 있습니다.

로컬 추론, Ollama, llama.cpp, KoboldCpp, LM Studio

GPTQ

높은 정확도를 유지하면서 VRAM 요구사항을 크게 줄이는 GPU 최적화 양자화 포맷입니다. Hugging Face의 커뮤니티 기여를 통해 이용할 수 있습니다.

VRAM 절감이 필요한 GPU 추론, 프로덕션 서빙

MLX 포맷

Apple Silicon(M1/M2/M3/M4)에 최적화된 Apple의 네이티브 ML 포맷입니다. 통합 메모리 아키텍처를 활용하여 Mac 하드웨어에서 효율적인 추론을 제공합니다.

Apple Silicon Mac, MLX 프레임워크

양자화 가이드

양자화는 약간의 정확도를 희생하여 모델 크기와 메모리 사용량을 줄입니다. Gemma 4에서 다양한 수준이 어떻게 비교되는지 살펴봅니다.

FormatBitsQualityNotes
BF16 / FP16 (풀 정밀도)16비트100%정확도 손실 없는 풀 모델 품질입니다. 가장 많은 VRAM과 디스크 공간이 필요합니다.
INT8 / Q88비트약 98-99%최소한의 품질 손실. FP16 대비 VRAM 요구사항이 절반으로 줄어듭니다. 대부분의 GPU 배포에 권장됩니다.
Q5_K_M5비트약 95-97%품질과 크기의 좋은 균형입니다. GGUF 포맷 로컬 추론에서 인기 있는 선택입니다.
INT4 / Q4_K_M4비트약 93-95%대부분의 사용 사례에 수용 가능한 품질로 크기가 크게 줄어듭니다. 일반 하드웨어에서 더 큰 모델을 실행할 수 있게 해줍니다.

명령줄로 다운로드

Hugging Face CLI

Hugging Face CLI를 설치하고 모델을 직접 다운로드하세요.

pip install huggingface_hub

# Full-precision SafeTensors (official Google repo)
huggingface-cli download google/gemma-4-31B-it

# GGUF quantized (community, unsloth — most downloaded)
huggingface-cli download unsloth/gemma-4-31B-it-GGUF \
  --include "gemma-4-31B-it-Q4_K_M.gguf"

Git LFS

Git Large File Storage로 모델 저장소를 복제하세요.

git lfs install
git clone https://huggingface.co/google/gemma-4-31B-it

Ollama CLI

모델을 Ollama로 바로 가져오세요.

# Pull any variant
ollama pull gemma4:e2b
ollama pull gemma4:e4b
ollama pull gemma4:26b
ollama pull gemma4:31b

다운로드 FAQ

Gemma 4를 다운로드하기 가장 좋은 곳은 어디인가요?

Hugging Face가 모든 포맷과 변형을 갖춘 가장 포괄적인 소스입니다. 한 줄 명령 로컬 설정에는 Ollama를 사용하세요. 중국 사용자는 ModelScope가 더 빠른 다운로드 속도를 제공합니다.

어떤 포맷을 다운로드해야 하나요?

Ollama나 llama.cpp용이라면 GGUF 파일을 다운로드하세요. Python/vLLM용이라면 SafeTensors 포맷을 사용하세요. Apple Silicon Mac용이라면 MLX 포맷을 사용하세요. 잘 모르겠다면 포맷 선택을 자동으로 처리해 주는 Ollama로 시작하세요.

Gemma 4 모델 파일은 얼마나 큰가요?

풀 정밀도 크기: E2B(약 4GB), E4B(약 8GB), 26B MoE(약 52GB), 31B Dense(약 62GB). Q4 양자화 버전은 약 4배 더 작습니다. Ollama의 기본 다운로드는 최적화된 양자화를 사용합니다.

다운로드에 Hugging Face 계정이 필요한가요?

아니요. Gemma 4 모델은 Apache 2.0 라이선스로 누구나 접근할 수 있습니다. 계정 없이 다운로드할 수 있지만, 계정이 있으면 더 빠른 다운로드와 Hugging Face CLI 접근이 가능합니다.

GGUF 파일이란 무엇인가요?

GGUF(GPT-Generated Unified Format)는 llama.cpp와 Ollama에서 효율적인 로컬 추론을 위해 설계된 바이너리 포맷입니다. 다양한 양자화 수준을 지원하여 정확도와 더 작은 파일 크기·더 낮은 메모리 사용량을 맞바꿀 수 있습니다.

중국에서 Gemma 4를 다운로드할 수 있나요?

네. ModelScope(魔搭社区)가 중국 내에서 빠른 다운로드 속도로 Gemma 4 모델을 미러링합니다. 또는 Hugging Face 다운로드를 위해 미러나 프록시를 사용할 수도 있습니다.

다운로드 및 배포

Gemma 4 모델 가중치를 받아 배포를 시작하세요. 단계별 설정 안내를 위해 배포 가이드를 확인하세요.