Gemma 4 프리셋 & 구성 가이드

Gemma 4에서 최상의 출력을 얻으려면 올바른 파라미터 구성이 필요합니다. 온도, top-p, 반복 페널티, 컨텍스트 길이는 모두 품질에 큰 영향을 미칩니다. 이 가이드는 일반적인 사용 사례에 대해 검증된 프리셋을 제공하여 즉시 최적의 결과를 얻을 수 있도록 합니다.

이 프리셋은 Ollama, LM Studio, vLLM, llama.cpp, MLX 등 모든 Gemma 4 추론 도구에서 동작합니다. 특정 요구에 맞게 값을 조정하세요.

주요 파라미터 설명

Temperature

Range: 0.0 – 2.0Default: 0.7

출력의 무작위성을 제어합니다. 낮은 값(0.1-0.3)은 더 결정적이고 집중된 응답을 생성합니다. 높은 값(0.8-1.2)은 창의성과 다양성을 높입니다. 1.5 이상의 값은 일관성 없는 출력을 만들 수 있습니다.

Top-P (Nucleus Sampling)

Range: 0.0 – 1.0Default: 0.9

누적 확률이 P를 초과하는 가장 작은 토큰 집합으로 토큰 선택을 제한합니다. 낮은 값(0.5-0.7)은 출력을 집중시키고, 높은 값(0.9-1.0)은 더 많은 다양성을 허용합니다. 온도와 함께 작동합니다.

Top-K

Range: 1 – 100+Default: 40

가장 가능성이 높은 상위 K개 토큰만 고려합니다. 낮은 값은 집중도와 일관성을 높입니다. 1로 설정하면 완전히 결정적인(greedy) 출력이 됩니다.

Repetition Penalty

Range: 1.0 – 2.0Default: 1.1

토큰 반복에 페널티를 부과하여 루프와 중복 출력을 방지합니다. 1.05-1.15 주변 값이 대부분의 사용 사례에 잘 맞습니다. 너무 높은 값은 필요한 반복까지 피하게 만들 수 있습니다.

Context Length (num_ctx)

Range: 2048 – 256000Default: 8192

모델이 고려하는 최대 토큰 수입니다. 더 큰 컨텍스트는 더 긴 문서 처리를 가능하게 하지만 더 많은 메모리가 필요합니다. Gemma 4는 최대 128K(E2B/E4B) 또는 256K(26B/31B)를 지원합니다.

Max Tokens

Range: 1 – 컨텍스트 한계Default: 2048

응답에서 생성할 최대 토큰 수입니다. 장문 콘텐츠 생성에는 더 높게, 간결한 답변에는 더 낮게 설정하세요.

권장 프리셋

코딩 & 기술

코드 생성, 디버깅, 기술 작업에 최적화되어 있습니다. 정확도를 위한 낮은 온도와 코드베이스 이해를 위한 높은 컨텍스트입니다.

temperature0.2

topP0.85

topK20

repeatPenalty1.05

numCtx32768

maxTokens4096

System Prompt

당신은 숙련된 소프트웨어 엔지니어입니다. 깔끔하고 잘 문서화된 프로덕션 품질의 코드를 작성하세요. 항상 오류 처리를 포함하고 사용 중인 언어의 모범 사례를 따르세요.

창작 글쓰기

창의적 다양성을 위한 높은 온도와 일관성을 유지하기 위한 충분한 top-p입니다. 스토리, 마케팅 카피, 브레인스토밍에 적합합니다.

temperature0.9

topP0.95

topK60

repeatPenalty1.15

numCtx16384

maxTokens8192

System Prompt

당신은 재능 있는 창의적 작가입니다. 강한 서사적 목소리로 생생하고 매력적인 콘텐츠를 작성하세요. 문장 구조를 다양화하고 환기적인 언어를 사용하세요.

분석 & 연구

분석 작업 — 문서 분석, 요약, 연구에 균형 잡힌 설정입니다. 철저한 분석을 위한 중간 온도와 긴 컨텍스트입니다.

temperature0.3

topP0.9

topK30

repeatPenalty1.1

numCtx65536

maxTokens4096

System Prompt

당신은 철저한 분석가입니다. 잘 구조화되고 증거에 기반한 분석을 제공하세요. 출처 자료의 구체적인 세부 사항을 인용하세요. 객관적이고 포괄적이어야 합니다.

일반 채팅 & 어시스턴트

일상 상호 작용을 위한 다재다능한 프리셋입니다. 일관성과 다양성 사이의 좋은 균형을 갖춘 자연스러운 대화 톤입니다.

temperature0.7

topP0.9

topK40

repeatPenalty1.1

numCtx8192

maxTokens2048

System Prompt

당신은 도움이 되고 친근한 AI 비서입니다. 명확하고 정확한 답변을 제공하세요. 필요한 경우 명확히 하기 위한 질문을 하세요. 간결하면서도 철저하게 답변하세요.

롤플레이 & 캐릭터

캐릭터 일관성을 유지하기 위한 강력한 반복 페널티와 함께 높은 창의성입니다. 인터랙티브 픽션과 캐릭터 기반 대화에 적합합니다.

temperature0.85

topP0.92

topK50

repeatPenalty1.18

numCtx16384

maxTokens4096

System Prompt

항상 캐릭터를 유지하세요. 생생한 묘사, 감정적 깊이, 일관된 성격으로 응답하세요. 절대로 제4의 벽을 깨지 마세요.

사실 & 정확

정확도가 필요한 작업을 위한 최소 무작위성 — 데이터 추출, 분류, 구조화된 출력, 사실 기반 Q&A입니다.

temperature0.1

topP0.8

topK10

repeatPenalty1.05

numCtx8192

maxTokens2048

System Prompt

당신은 정확하고 사실에 기반한 비서입니다. 정확한 정보만 제공하세요. 확실하지 않으면 그렇다고 말하세요. 적절한 경우 구조화된 형식(목록, 표)을 사용하세요.

Ollama와 함께 프리셋 사용하기

Ollama에서 프리셋을 적용하려면 커스텀 Modelfile을 만드세요.

# Create a Modelfile
cat > Modelfile.coding <<'EOF'
FROM gemma4:e4b

PARAMETER temperature 0.2
PARAMETER top_p 0.85
PARAMETER top_k 20
PARAMETER repeat_penalty 1.05
PARAMETER num_ctx 32768

SYSTEM """
You are an expert software engineer. Write clean, well-documented, production-quality code. Always include error handling and follow best practices for the language being used.
"""
EOF

# Build and run
ollama create gemma4-coding -f Modelfile.coding
ollama run gemma4-coding

프리셋 FAQ

Gemma 4에 가장 좋은 온도는 얼마인가요?

작업에 따라 다릅니다. 코딩과 사실 작업에는 0.1-0.3, 일반 채팅에는 0.6-0.8, 창작 글쓰기에는 0.8-1.0입니다. 사용 사례에 맞는 권장 프리셋으로 시작하고 출력 품질에 따라 조정하세요.

top-p와 top-k 중 무엇을 사용해야 하나요?

대부분의 사용자는 다양한 확률 분포에 더 잘 적응하는 top-p(nucleus sampling)를 사용해야 합니다. Top-k는 더 간단하지만 맥락에 따라 너무 제한적이거나 느슨할 수 있습니다. 둘 다 함께 사용하면 세밀한 제어가 가능합니다.

어떤 컨텍스트 길이를 설정해야 하나요?

필요에 맞는 가장 작은 컨텍스트를 사용하세요 — 더 긴 컨텍스트는 더 많은 메모리를 사용합니다. 8K는 간단한 채팅에 적합합니다. 32K는 코드 파일에, 64K 이상은 긴 문서에 사용하세요. 매우 큰 입력을 처리할 때만 128K/256K를 사용하세요.

반복적인 출력을 어떻게 해결하나요?

반복 페널티를 높이세요(1.15-1.25 시도). 또한 온도를 약간 높이고(0.1-0.2 추가) top-k를 줄여 보세요. 모델이 특정 문구에서 루프에 빠지면 사용 도구가 지원할 경우 presence penalty 목록에 추가하세요.

프리셋이 모델 크기에 따라 다른가요?

동일한 프리셋이 일반적으로 모든 Gemma 4 변형에서 동작합니다. 더 작은 모델(E2B, E4B)은 모델 용량 감소를 보상하기 위해 약간 낮은 온도(0.1 빼기)의 이점을 볼 수 있습니다. 31B 모델은 높은 온도도 잘 처리합니다.

이 프리셋을 다른 모델과 함께 사용할 수 있나요?

이 프리셋은 Gemma 4에 최적화되어 있지만 대부분의 LLM에 합리적인 출발점으로 동작합니다. 서로 다른 모델 제품군은 동일한 설정에 다르게 반응할 수 있으므로 항상 테스트하고 조정하세요.

presetsPage.faq.items.6.q

presetsPage.faq.items.6.a

presetsPage.faq.items.7.q

presetsPage.faq.items.7.a

presetsPage.faq.items.8.q

presetsPage.faq.items.8.a

presetsPage.faq.items.9.q

presetsPage.faq.items.9.a

이 프리셋 적용하기

Gemma 4를 다운로드하고 이 최적화된 구성을 사용하기 시작하세요. 또는 먼저 Gemma 4를 온라인으로 체험해 보세요.

Ollama 가이드 모델 다운로드 온라인으로 체험