Gemma 4

Mac에서 MLX로 Gemma 4 실행하기

MLX는 Apple Silicon(M1, M2, M3, M4)을 위해 특별히 구축된 Apple의 머신러닝 프레임워크입니다. Apple 칩의 통합 메모리 아키텍처를 활용하여 뛰어난 추론 성능을 제공하며, 메모리에 맞는 모델에서는 종종 GPU 기반 설정보다 더 나은 성능을 보입니다.

Gemma 4는 MLX와 함께 탁월하게 동작하여 Apple Silicon을 갖춘 모든 Mac을 유능한 AI 워크스테이션으로 만듭니다. 이 가이드는 설치, 모든 Gemma 4 변형 실행, Mac에서의 성능 최적화를 다룹니다.

Gemma 4에 MLX를 사용하는 이유

통합 메모리의 이점

Apple Silicon의 통합 메모리 아키텍처는 GPU VRAM 한계가 없음을 의미합니다 — 전체 시스템 메모리를 사용할 수 있습니다. 64GB RAM을 갖춘 Mac은 PC에서 1,500달러 이상의 GPU가 필요한 모델을 로드하고 실행할 수 있습니다.

네이티브 최적화

MLX는 Apple이 Apple Silicon용으로 특별히 구축했으며, Metal 컴퓨트 셰이더와 최적화된 메모리 접근 패턴을 사용합니다. 일반 CPU 추론보다 지속적으로 더 나은 초당 토큰 수를 제공합니다.

간단한 설정

pip로 설치하고 모델을 다운로드한 후 생성을 시작하세요. CUDA 드라이버, Docker 컨테이너, 복잡한 환경 설정이 필요하지 않습니다.

에너지 효율성

Apple Silicon의 효율성 덕분에 배터리로 몇 시간 동안 Gemma 4를 실행할 수 있습니다. 콘센트에 연결되지 않고 로컬 AI를 사용하고 싶은 개발자에게 이상적입니다.

설치

MLX용 Apple의 모델 서빙 라이브러리인 mlx-lm을 설치합니다.

pip install mlx-lm

# Verify installation
python -c "import mlx_lm; print('MLX-LM ready')

Gemma 4 모델 실행

어떤 Mac에서 어떤 Gemma 4 모델이 잘 실행되는지 살펴봅니다.

MacBook Air/Pro (8GB)

E2B, E4B (INT4)

INT4 양자화의 E4B가 편안하게 들어갑니다. OS와 앱을 위한 여유를 남겨두세요.

MacBook Pro (16-18GB)

E2B, E4B, 26B MoE (INT4)

INT4의 26B MoE(약 16GB)가 들어가지만 여유 공간은 거의 없습니다. E4B가 최적의 지점입니다.

MacBook Pro / Mac Studio (36-48GB)

모든 모델 (INT4/INT8)

INT8의 26B에 편안합니다. INT4의 31B는 여유 있게 들어갑니다.

Mac Studio / Mac Pro (64-192GB)

모든 모델 (모든 정밀도)

FP16의 31B를 실행할 수 있습니다. 궁극의 Gemma 4 워크스테이션입니다.

MLX 명령어

텍스트 생성

mlx_lm.generate \
  --model mlx-community/gemma-4-e4b-it-4bit \
  --prompt "Explain quantum computing in simple terms" \
  --max-tokens 512

대화형 채팅

mlx_lm.chat --model mlx-community/gemma-4-e4b-it-4bit

API 서버 시작

mlx_lm.server \
  --model mlx-community/gemma-4-e4b-it-4bit \
  --port 8080

# Then use the OpenAI-compatible API:
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "gemma-4-e4b", "messages": [{"role": "user", "content": "Hello!"}]}'

모델 양자화

mlx_lm.convert \
  --hf-path google/gemma-4-e4b-it \
  --mlx-path ./gemma-4-e4b-4bit \
  -q --q-bits 4

성능 팁

메모리를 많이 쓰는 앱 종료

Safari, Chrome, Docker는 상당한 RAM을 소비할 수 있습니다. 더 큰 모델을 실행하기 전에 이들을 종료하여 MLX가 사용할 수 있는 메모리를 최대화하세요.

양자화된 모델 사용

32GB 이하 RAM을 가진 머신에서는 항상 INT4 또는 INT8 양자화 모델을 사용하세요. 품질 차이는 최소이지만 메모리 절약 효과는 상당합니다.

컨텍스트 길이 조정

더 긴 컨텍스트 윈도우는 더 많은 메모리를 소비합니다. RAM이 부족하다면 최대 컨텍스트 길이를 줄여 모델 가중치를 위한 메모리를 확보하세요.

메모리 압력 모니터링

활성 상태 보기로 메모리 압력을 확인하세요. 노란색/빨간색이 되면 시스템이 디스크로 스와핑하고 추론이 급격히 느려집니다. 더 작은 모델이나 더 강한 양자화를 고려하세요.

MLX + Gemma 4 자주 묻는 질문

Intel Mac에서 Gemma 4를 실행할 수 있나요?

MLX는 Apple Silicon(M1 이상)을 요구합니다. Intel Mac의 경우 모든 Mac에서 CPU 추론을 지원하는 Ollama나 llama.cpp를 대신 사용하세요.

MLX에서 Gemma 4는 얼마나 빠른가요?

성능은 모델과 하드웨어에 따라 다릅니다. M3 Pro에서 E4B는 초당 약 30-40 토큰을 달성합니다. M3 Max에서 26B MoE는 초당 약 15-20 토큰입니다. M2 Ultra에서 31B는 초당 약 10-15 토큰을 제공합니다. 이 속도는 대화형 사용에 매우 적합합니다.

Mac에서 MLX vs Ollama — 어느 것이 더 나은가요?

두 가지 모두 Mac에서 탁월합니다. Ollama는 더 간단하고(한 줄 명령 설치) 내장 API 서버를 포함합니다. MLX는 더 많은 제어, 더 나은 메모리 효율성, 종종 약간 더 빠른 추론을 제공합니다. 대부분의 사용자는 Ollama로 시작하고 최대 성능을 위해 MLX로 전환하세요.

MLX 모델은 어디서 오나요?

MLX 포맷 모델은 Hugging Face에서 제공되며, 종종 mlx-community 조직에서 업로드합니다. mlx-lm의 변환 도구를 사용하여 SafeTensors 모델을 MLX 포맷으로 변환할 수도 있습니다.

MLX로 Gemma 4를 파인튜닝할 수 있나요?

네. mlx-lm은 Apple Silicon에서 LoRA 파인튜닝을 지원합니다. 이를 통해 별도의 GPU 서버 없이 Mac에서 직접 도메인에 맞게 Gemma 4를 맞춤화할 수 있습니다.

Mac에서 Gemma 4를 위해 얼마나 많은 RAM이 필요한가요?

INT4의 E4B에 최소 8GB. 편안한 E4B/26B INT4 사용에 16GB. INT4의 31B에 36-48GB. FP16의 31B에 64GB 이상. macOS 자체가 3-5GB를 사용하므로 이를 감안하여 계획하세요.

mlxPage.faq.items.6.q

mlxPage.faq.items.6.a

mlxPage.faq.items.7.q

mlxPage.faq.items.7.a

mlxPage.faq.items.8.q

mlxPage.faq.items.8.a

mlxPage.faq.items.9.q

mlxPage.faq.items.9.a

Mac에서 Gemma 4 실행 시작하기

Mac이 AI에 준비되어 있습니다. MLX를 설치하고, Gemma 4를 다운로드하여 생성을 시작하세요.