Gemma 4

Gemma 4 预设与配置指南

要从 Gemma 4 获得最佳输出,需要正确的参数配置。温度、top-p、重复惩罚和上下文长度都会显著影响生成质量。本指南提供经过测试的预设配置,帮助你立即获得最优结果。

这些预设适用于所有 Gemma 4 推理工具——Ollama、LM Studio、vLLM、llama.cpp 和 MLX。根据具体需求调整数值。

关键参数说明

Temperature(温度)

Range: 0.0 – 2.0Default: 0.7

控制输出的随机性。较低值 (0.1-0.3) 产生更确定、聚焦的回答。较高值 (0.8-1.2) 增加创意和多样性。超过 1.5 可能产生不连贯的输出。

Top-P(核采样)

Range: 0.0 – 1.0Default: 0.9

将 token 选择限制在累积概率超过 P 的最小 token 集合中。较低值 (0.5-0.7) 聚焦输出;较高值 (0.9-1.0) 允许更多多样性。与温度配合使用。

Top-K

Range: 1 – 100+Default: 40

将考虑范围限制在概率最高的 K 个 token。较低值增加聚焦和一致性。设为 1 则完全确定性(贪心)输出。

Repetition Penalty(重复惩罚)

Range: 1.0 – 2.0Default: 1.1

惩罚重复 token 以防止循环和冗余输出。1.05-1.15 适合大多数场景。过高可能导致模型回避必要的重复。

Context Length(上下文长度 / num_ctx)

Range: 2048 – 256000Default: 8192

模型考虑的最大 token 数。更大的上下文可处理更长的文档但需要更多内存。Gemma 4 最高支持 128K (E2B/E4B) 或 256K (26B/31B)。

Max Tokens(最大生成长度)

Range: 1 – 上下文限制Default: 2048

回答中生成的最大 token 数。长文本内容生成时设高一些,简短回答设低一些。

推荐预设

编程与技术

针对代码生成、调试和技术任务优化。低温度保证准确性,大上下文用于理解代码库。

temperature0.2
topP0.85
topK20
repeatPenalty1.05
numCtx32768
maxTokens4096
System Prompt

你是一位专业的软件工程师。编写简洁、有文档注释的生产级代码。始终包含错误处理并遵循所用语言的最佳实践。

创意写作

较高温度增加创意变化,同时保持足够的 top-p 维持连贯性。适合故事、营销文案和头脑风暴。

temperature0.9
topP0.95
topK60
repeatPenalty1.15
numCtx16384
maxTokens8192
System Prompt

你是一位才华横溢的创意作家。写出生动、引人入胜的内容,带有强烈的叙事风格。变化句式结构,使用富有表现力的语言。

分析与研究

平衡设置,适合分析任务——文档分析、摘要和研究。适中的温度配合长上下文进行全面分析。

temperature0.3
topP0.9
topK30
repeatPenalty1.1
numCtx65536
maxTokens4096
System Prompt

你是一位严谨的分析师。提供结构清晰、有据可依的分析。引用源材料中的具体细节。保持客观和全面。

日常对话与助手

适合日常交互的通用预设。自然的对话语气,在一致性和多样性之间取得良好平衡。

temperature0.7
topP0.9
topK40
repeatPenalty1.1
numCtx8192
maxTokens2048
System Prompt

你是一个有帮助、友好的 AI 助手。提供清晰、准确的回答。需要时主动提出澄清问题。简洁但全面。

角色扮演与人设

高创意性配合较强的重复惩罚以保持角色一致性。适合互动小说和基于角色的对话。

temperature0.85
topP0.92
topK50
repeatPenalty1.18
numCtx16384
maxTokens4096
System Prompt

始终保持角色扮演状态。用生动的描述、情感深度和一致的性格来回应。永远不要打破第四面墙。

事实与精确

最小随机性,适合需要高准确度的任务——数据提取、分类、结构化输出和事实问答。

temperature0.1
topP0.8
topK10
repeatPenalty1.05
numCtx8192
maxTokens2048
System Prompt

你是一个精确、务实的助手。只提供准确的信息。不确定时直接说明。适当时使用结构化格式(列表、表格)。

在 Ollama 中使用预设

创建自定义 Modelfile 来在 Ollama 中应用预设:

# Create a Modelfile
cat > Modelfile.coding <<'EOF'
FROM gemma4:e4b

PARAMETER temperature 0.2
PARAMETER top_p 0.85
PARAMETER top_k 20
PARAMETER repeat_penalty 1.05
PARAMETER num_ctx 32768

SYSTEM """
You are an expert software engineer. Write clean, well-documented, production-quality code. Always include error handling and follow best practices for the language being used.
"""
EOF

# Build and run
ollama create gemma4-coding -f Modelfile.coding
ollama run gemma4-coding

预设常见问题

Gemma 4 最佳温度是多少?

取决于任务:编程和事实任务用 0.1-0.3,日常对话用 0.6-0.8,创意写作用 0.8-1.0。从推荐预设开始,根据输出质量调整。

应该用 top-p 还是 top-k?

大多数用户应使用 top-p(核采样),它对不同概率分布的适应性更好。top-k 更简单但可能过于限制或过于宽松。同时使用两者可以实现精细控制。

上下文长度应该设多大?

使用满足需求的最小上下文——更长的上下文占用更多内存。简单对话用 8K。代码文件用 32K。长文档用 64K+。只有处理超大输入时才用 128K/256K。

怎么解决输出重复的问题?

增加重复惩罚(试试 1.15-1.25)。也可以稍微提高温度(加 0.1-0.2)并降低 top-k。如果模型在特定短语上循环,将它们加入存在惩罚列表(如果工具支持)。

不同模型尺寸需要不同预设吗?

相同的预设通常适用于所有 Gemma 4 变体。较小的模型 (E2B, E4B) 可能受益于略低的温度(减 0.1)以补偿模型容量。31B 模型能很好地处理较高温度。

这些预设能用于其他模型吗?

这些预设针对 Gemma 4 优化,但可作为大多数 LLM 的合理起点。不同模型家族对相同设置的响应可能不同——务必测试和调整。

presetsPage.faq.items.6.q

presetsPage.faq.items.6.a

presetsPage.faq.items.7.q

presetsPage.faq.items.7.a

presetsPage.faq.items.8.q

presetsPage.faq.items.8.a

presetsPage.faq.items.9.q

presetsPage.faq.items.9.a

应用这些预设

下载 Gemma 4 并开始使用这些优化配置。或者先在线试用。