Gemma 4 プリセット&設定ガイド
Gemma 4 から最良の出力を得るには、適切なパラメータ設定が必要です。温度、top-p、繰り返しペナルティ、コンテキスト長はすべて品質に大きな影響を与えます。このガイドでは、一般的なユースケース向けにテスト済みのプリセットを提供しており、すぐに最適な結果を得られます。
これらのプリセットはすべての Gemma 4 推論ツール — Ollama、LM Studio、vLLM、llama.cpp、MLX — で動作します。具体的なニーズに合わせて値を調整してください。
主要パラメータの解説
Temperature(温度)
出力のランダム性を制御します。低い値(0.1〜0.3)はより決定論的で焦点の絞られた応答を生成します。高い値(0.8〜1.2)は創造性と多様性を高めます。1.5 を超える値は一貫性のない出力を生成する可能性があります。
Top-P(Nucleus Sampling)
累積確率が P を超える最小のトークン集合にトークン選択を制限します。低い値(0.5〜0.7)は出力を集中させ、高い値(0.9〜1.0)はより多様性を許容します。温度と組み合わせて動作します。
Top-K
最も可能性の高い上位 K トークンに考慮を制限します。低い値は焦点と一貫性を高めます。完全に決定論的(貪欲)な出力には 1 に設定してください。
繰り返しペナルティ
トークンの繰り返しにペナルティを与え、ループや冗長な出力を防ぎます。1.05〜1.15 程度の値がほとんどのユースケースでうまく機能します。高すぎる値は必要な繰り返しをモデルが避ける原因になります。
コンテキスト長(num_ctx)
モデルが考慮する最大トークン数。コンテキストが大きいほど長いドキュメントを処理できますが、より多くのメモリを必要とします。Gemma 4 は最大 128K(E2B/E4B)または 256K(26B/31B)をサポートします。
最大トークン数
応答で生成する最大トークン数。長文コンテンツ生成ではより高く、簡潔な回答ではより低く設定してください。
推奨プリセット
コーディング&技術
コード生成、デバッグ、技術タスク向けに最適化。精度のための低温度と、コードベース理解のための大きなコンテキスト。
あなたは熟練したソフトウェアエンジニアです。クリーンで十分にドキュメント化された、本番品質のコードを書いてください。常にエラーハンドリングを含め、使用している言語のベストプラクティスに従ってください。
創作
創造的な多様性のための高温度と、一貫性を維持する十分な top-p。ストーリー、マーケティングコピー、ブレインストーミングに最適。
あなたは才能あるクリエイティブライターです。力強い語り口で生き生きとした魅力的なコンテンツを書いてください。文章構造を変化させ、喚起的な言葉を使ってください。
分析&リサーチ
ドキュメント分析、要約、リサーチなどの分析タスク向けのバランスの取れた設定。徹底的な分析のための適度な温度と長いコンテキスト。
あなたは徹底的なアナリストです。十分に構造化され、エビデンスに基づく分析を提供してください。ソース資料から具体的な詳細を引用してください。客観的かつ包括的であってください。
一般チャット&アシスタント
日常的なやり取り向けの汎用プリセット。一貫性と多様性のバランスの取れた自然な会話調。
あなたは親切で友好的な AI アシスタントです。明確で正確な回答を提供してください。必要なときに明確化の質問をしてください。簡潔でありながら徹底的であってください。
ロールプレイ&キャラクター
キャラクターの一貫性を維持するための強い繰り返しペナルティを備えた高い創造性。インタラクティブフィクションやキャラクターベースの会話に適しています。
常にキャラクターを維持してください。生き生きとした描写、感情の深さ、一貫したパーソナリティで応答してください。第四の壁を決して破らないでください。
事実重視&正確
精度が求められるタスク向けの最小限のランダム性 — データ抽出、分類、構造化出力、事実ベースの Q&A。
あなたは正確で事実重視のアシスタントです。正確な情報のみを提供してください。不確かな場合はそう言ってください。適切な場合は構造化フォーマット(リスト、テーブル)を使用してください。
Ollama でのプリセット使用
Ollama でプリセットを適用するには、カスタム Modelfile を作成します:
# Create a Modelfile
cat > Modelfile.coding <<'EOF'
FROM gemma4:e4b
PARAMETER temperature 0.2
PARAMETER top_p 0.85
PARAMETER top_k 20
PARAMETER repeat_penalty 1.05
PARAMETER num_ctx 32768
SYSTEM """
You are an expert software engineer. Write clean, well-documented, production-quality code. Always include error handling and follow best practices for the language being used.
"""
EOF
# Build and run
ollama create gemma4-coding -f Modelfile.coding
ollama run gemma4-codingプリセットに関するよくある質問
Gemma 4 の最適な温度は?
タスクによります:コーディングや事実タスクには 0.1〜0.3、一般チャットには 0.6〜0.8、創作には 0.8〜1.0。ユースケースの推奨プリセットから始めて、出力品質に基づいて調整してください。
top-p と top-k のどちらを使うべきですか?
ほとんどのユーザーは top-p(Nucleus Sampling)を使用するべきです。これはさまざまな確率分布により適応します。Top-k はシンプルですが、コンテキストによっては制限が強すぎたり緩すぎたりすることがあります。両方を一緒に使用するときめ細かい制御が可能です。
どのコンテキスト長を設定すべきですか?
ニーズに合う最小のコンテキストを使用してください — より長いコンテキストはより多くのメモリを使用します。シンプルなチャットには 8K で十分です。コードファイルには 32K。長いドキュメントには 64K 以上。非常に大きな入力を処理する場合のみ 128K/256K を使用してください。
繰り返しの多い出力をどう修正しますか?
繰り返しペナルティを増やしてください(1.15〜1.25 を試してください)。また、温度をわずかに上げ(0.1〜0.2 追加)、top-k を減らしてみてください。モデルが特定のフレーズでループする場合、ツールが対応していれば presence penalty リストに追加してください。
プリセットはモデルサイズによって異なりますか?
同じプリセットは一般的にすべての Gemma 4 バリエーションで動作します。小型モデル(E2B、E4B)は、モデル容量の減少を補うためにわずかに低い温度(0.1 引く)から恩恵を受けるかもしれません。31B モデルは高い温度もうまく処理します。
これらのプリセットを他のモデルで使えますか?
これらのプリセットは Gemma 4 向けに最適化されていますが、ほとんどの LLM で妥当な出発点として機能します。モデルファミリーが異なれば同じ設定に異なる反応を示す可能性があります — 常にテストして調整してください。
presetsPage.faq.items.6.q
presetsPage.faq.items.6.a
presetsPage.faq.items.7.q
presetsPage.faq.items.7.a
presetsPage.faq.items.8.q
presetsPage.faq.items.8.a
presetsPage.faq.items.9.q
presetsPage.faq.items.9.a
これらのプリセットを適用する
Gemma 4 をダウンロードしてこれらの最適化された構成を使い始めましょう。または、まず Gemma 4 をオンラインで試してみてください。