Gemma 4

KoboldCpp で Gemma 4 を実行

KoboldCpp は、llama.cpp をベースにしたユーザーフレンドリーなクロスプラットフォーム推論エンジンで、Web インターフェースが組み込まれています。Gemma 4 GGUF モデルをローカルで実行する最も簡単な方法の一つで、特に創作、ロールプレイ、インタラクティブフィクションのコミュニティで人気があります。

コマンドラインツールとは異なり、KoboldCpp はグラフィカルランチャーとブラウザベースのチャット UI を標準で提供します。CPU、CUDA(NVIDIA)、ROCm(AMD)、Vulkan、Metal(Apple)アクセラレーションをサポートしており、事実上あらゆるハードウェアで動作します。

ステップ 1:KoboldCpp をダウンロード

GitHub から最新リリースを取得します:

koboldcppPage.install.windows.title

koboldcppPage.install.windows.desc

koboldcppPage.install.mac.title

koboldcppPage.install.mac.desc

koboldcppPage.install.linux.title

koboldcppPage.install.linux.desc

ステップ 2:Gemma 4 GGUF ファイルを取得

koboldcppPage.download.subtitle

koboldcppPage.download.items.0.name

koboldcppPage.download.items.0.size

koboldcppPage.download.items.0.desc

koboldcppPage.download.items.1.name

koboldcppPage.download.items.1.size

koboldcppPage.download.items.1.desc

koboldcppPage.download.items.2.name

koboldcppPage.download.items.2.size

koboldcppPage.download.items.2.desc

koboldcppPage.download.items.3.name

koboldcppPage.download.items.3.size

koboldcppPage.download.items.3.desc

ステップ 3:KoboldCpp を起動

GUI ランチャー

KoboldCpp をダブルクリックしてランチャーを開きます。GGUF ファイルを選択し、GPU レイヤーを設定して、Launch をクリックします。

コマンドライン

または、より多くの制御のためにターミナルから起動します:

koboldcpp --model gemma-4-e4b-it-Q4_K_M.gguf --gpulayers 33 --contextsize 4096

推奨設定

koboldcppPage.settings.items.0.title

4096 から始めてください。より長い会話が必要な場合は増やしてください。高い値はより多くの RAM を使用します。

koboldcppPage.settings.items.1.title

GPU が処理できる最大値に設定してください。レイヤーが多いほど推論が速くなります。0 は CPU のみです。

koboldcppPage.settings.items.2.title

CPU 推論用。システムのオーバーヘッドのために 1 コアを残してください。

koboldcppPage.settings.items.3.title

デフォルトでうまく動作します。RAM に余裕があれば、プロンプト処理の高速化のために増やしてください。

API 統合

KoboldCpp は Kobold API と OpenAI 互換 API の両方を公開しています。SillyTavern、Agnaistic、その他の互換フロントエンドで使用できます:

koboldcppPage.api.generate.title

curl http://localhost:5001/api/v1/generate \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "Write a Python function to sort a list",
    "max_length": 200,
    "temperature": 0.7
  }'

koboldcppPage.api.check.title

curl http://localhost:5001/api/v1/model

KoboldCpp + Gemma 4 よくある質問

KoboldCpp とは何ですか?

KoboldCpp はオープンソースでクロスプラットフォームの推論エンジンで、Web UI が組み込まれています。llama.cpp をベースにしており、GGUF モデルをサポートします。創作、ロールプレイ、ローカル AI チャットで人気があります。

KoboldCpp に最適な Gemma 4 モデルは?

ほとんどのユーザーには gemma-4-e4b-it-Q4_K_M.gguf(約 3GB)が最適なバランスを提供します。24GB 以上の VRAM を持つ GPU があれば、31B Q4 モデルがフラッグシップ品質を提供します。

KoboldCpp を SillyTavern と一緒に使えますか?

はい。KoboldCpp は SillyTavern で最も人気のあるバックエンドの一つです。localhost:5001 の Kobold API または OpenAI 互換エンドポイント経由で接続してください。

KoboldCpp と Ollama — どちらを使うべき?

Ollama はクイックセットアップと API ファースト利用にシンプルです。KoboldCpp は組み込みの UI、高度なサンプラー設定、SillyTavern などのチャットフロントエンドとの互換性で優れています。ワークフローに基づいて選んでください。

KoboldCpp は Gemma 4 のマルチモーダルをサポートしていますか?

KoboldCpp は主にテキスト生成に焦点を当てています。マルチモーダル機能(画像/動画/音声入力)には、Ollama または vLLM を使用してください。

推論を速くするには?

GPU レイヤーのオフロードを最大化してください。量子化モデル(Q4_K_M または Q5_K_M)を使用してください。ランチャーで CUDA/Metal/Vulkan を有効にしてください。不要ならコンテキストサイズを減らしてください。

koboldcppPage.faq.items.6.q

koboldcppPage.faq.items.6.a

koboldcppPage.faq.items.7.q

koboldcppPage.faq.items.7.a

koboldcppPage.faq.items.8.q

koboldcppPage.faq.items.8.a

koboldcppPage.faq.items.9.q

koboldcppPage.faq.items.9.a

KoboldCpp を始めよう

KoboldCpp をダウンロードし、Gemma 4 GGUF ファイルを取得して、数分でチャットを始めましょう。