KoboldCpp로 Gemma 4 실행하기

KoboldCpp는 내장 웹 인터페이스를 갖춘 llama.cpp 기반의 사용자 친화적 크로스 플랫폼 추론 엔진입니다. Gemma 4 GGUF 모델을 로컬에서 실행하는 가장 쉬운 방법 중 하나로, 특히 창작 글쓰기, 롤플레이, 인터랙티브 픽션 커뮤니티에서 인기가 높습니다.

명령줄 도구와 달리 KoboldCpp는 그래픽 런처와 브라우저 기반 채팅 UI를 기본 제공합니다. CPU, CUDA(NVIDIA), ROCm(AMD), Vulkan, Metal(Apple) 가속을 지원하여 사실상 모든 하드웨어에서 동작합니다.

1단계: KoboldCpp 다운로드

GitHub에서 최신 릴리스를 받으세요.

koboldcppPage.install.windows.title

koboldcppPage.install.windows.desc

koboldcppPage.install.mac.title

koboldcppPage.install.mac.desc

koboldcppPage.install.linux.title

koboldcppPage.install.linux.desc

2단계: Gemma 4 GGUF 파일 받기

koboldcppPage.download.subtitle

koboldcppPage.download.items.0.name

koboldcppPage.download.items.0.size

koboldcppPage.download.items.0.desc

koboldcppPage.download.items.1.name

koboldcppPage.download.items.1.size

koboldcppPage.download.items.1.desc

koboldcppPage.download.items.2.name

koboldcppPage.download.items.2.size

koboldcppPage.download.items.2.desc

koboldcppPage.download.items.3.name

koboldcppPage.download.items.3.size

koboldcppPage.download.items.3.desc

3단계: KoboldCpp 실행

GUI 런처

KoboldCpp를 더블 클릭하여 런처를 엽니다. GGUF 파일을 선택하고 GPU 레이어를 구성한 후 Launch를 클릭하세요.

명령줄

또는 더 많은 제어를 위해 터미널에서 실행하세요.

koboldcpp --model gemma-4-e4b-it-Q4_K_M.gguf --gpulayers 33 --contextsize 4096

권장 설정

koboldcppPage.settings.items.0.title

4096으로 시작하세요. 더 긴 대화가 필요하면 늘리세요. 더 높은 값은 더 많은 RAM을 사용합니다.

koboldcppPage.settings.items.1.title

GPU가 처리할 수 있는 최대값으로 설정하세요. 더 많은 레이어 = 더 빠른 추론. 0 = CPU 전용.

koboldcppPage.settings.items.2.title

CPU 추론용입니다. 시스템 오버헤드를 위해 1개 코어를 남겨 두세요.

koboldcppPage.settings.items.3.title

기본값이 잘 동작합니다. RAM 여유가 있다면 더 빠른 프롬프트 처리를 위해 늘리세요.

API 통합

KoboldCpp는 Kobold API와 OpenAI 호환 API를 모두 노출합니다. SillyTavern, Agnaistic 또는 호환되는 프런트엔드와 함께 사용하세요.

koboldcppPage.api.generate.title

curl http://localhost:5001/api/v1/generate \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "Write a Python function to sort a list",
    "max_length": 200,
    "temperature": 0.7
  }'

koboldcppPage.api.check.title

curl http://localhost:5001/api/v1/model

KoboldCpp + Gemma 4 자주 묻는 질문

KoboldCpp란 무엇인가요?

KoboldCpp는 내장 웹 UI를 갖춘 오픈 소스 크로스 플랫폼 추론 엔진입니다. llama.cpp 기반이며 GGUF 모델을 지원합니다. 창작 글쓰기, 롤플레이, 로컬 AI 채팅에 인기가 있습니다.

KoboldCpp와 가장 잘 동작하는 Gemma 4 모델은 무엇인가요?

대부분의 사용자에게 gemma-4-e4b-it-Q4_K_M.gguf(약 3GB)가 최적의 균형을 제공합니다. 24GB 이상 VRAM GPU가 있다면 31B Q4 모델이 플래그십 품질을 제공합니다.

SillyTavern과 함께 KoboldCpp를 사용할 수 있나요?

네. KoboldCpp는 SillyTavern의 가장 인기 있는 백엔드 중 하나입니다. localhost:5001의 Kobold API 또는 OpenAI 호환 엔드포인트를 통해 연결하세요.

KoboldCpp vs Ollama — 어느 것을 사용해야 하나요?

Ollama는 빠른 설정과 API 우선 사용에 더 간단합니다. KoboldCpp는 내장 UI, 고급 샘플러 설정, SillyTavern 같은 채팅 프런트엔드와의 호환성에서 뛰어납니다. 워크플로에 따라 선택하세요.

KoboldCpp는 Gemma 4 멀티모달을 지원하나요?

KoboldCpp는 주로 텍스트 생성에 초점을 맞춥니다. 멀티모달 기능(이미지/비디오/오디오 입력)을 원한다면 Ollama나 vLLM을 대신 사용하세요.

더 빠른 추론을 어떻게 얻을 수 있나요?

GPU 레이어 오프로딩을 최대화하세요. 양자화 모델(Q4_K_M 또는 Q5_K_M)을 사용하세요. 런처에서 CUDA/Metal/Vulkan을 활성화하세요. 필요 없다면 컨텍스트 크기를 줄이세요.

koboldcppPage.faq.items.6.q

koboldcppPage.faq.items.6.a

koboldcppPage.faq.items.7.q

koboldcppPage.faq.items.7.a

koboldcppPage.faq.items.8.q

koboldcppPage.faq.items.8.a

koboldcppPage.faq.items.9.q

koboldcppPage.faq.items.9.a

KoboldCpp로 시작하기

KoboldCpp를 다운로드하고, Gemma 4 GGUF 파일을 받아 몇 분 안에 대화를 시작하세요.

GGUF 모델 다운로드 Ollama 대신 사용 모든 배포 옵션