Gemma 4

MLX で Gemma 4 を Mac で実行

MLX は Apple Silicon(M1、M2、M3、M4)専用に構築された Apple の機械学習フレームワークです。Apple チップのユニファイドメモリアーキテクチャを活用して卓越した推論性能を発揮し、メモリに収まるモデルでは GPU ベースの構成を上回ることもしばしばあります。

Gemma 4 は MLX と非常に相性が良く、Apple Silicon 搭載の任意の Mac を優れた AI ワークステーションにします。このガイドでは、インストール、すべての Gemma 4 バリエーションの実行、Mac での性能最適化について説明します。

なぜ Gemma 4 に MLX を?

ユニファイドメモリの利点

Apple Silicon のユニファイドメモリアーキテクチャは GPU VRAM の制限がないことを意味します。システムメモリ全体が利用可能です。64GB RAM を持つ Mac は、PC で 1,500 ドル以上の GPU が必要なモデルをロードして実行できます。

ネイティブ最適化

MLX は Apple Silicon 専用に Apple が構築しており、Metal 計算シェーダーと最適化されたメモリアクセスパターンを使用します。汎用 CPU 推論よりも高い tokens/秒を一貫して提供します。

シンプルなセットアップ

pip でインストールし、モデルをダウンロードして生成を開始できます。CUDA ドライバ、Docker コンテナ、複雑な環境セットアップは不要です。

エネルギー効率

Apple Silicon の効率性により、バッテリーで何時間も Gemma 4 を実行できます。壁のコンセントに縛られずにローカル AI を使いたい開発者に最適です。

インストール

MLX 用の Apple のモデルサービングライブラリ mlx-lm をインストールします:

pip install mlx-lm

# Verify installation
python -c "import mlx_lm; print('MLX-LM ready')

Gemma 4 モデルの実行

どの Gemma 4 モデルがどの Mac で快適に動作するか:

MacBook Air/Pro(8GB)

E2B、E4B(INT4)

E4B を INT4 量子化で快適に実行できます。OS とアプリのための余裕を残してください。

MacBook Pro(16〜18GB)

E2B、E4B、26B MoE(INT4)

26B MoE を INT4(約 16GB)で実行できますが余裕は少ないです。E4B が最適な選択肢です。

MacBook Pro / Mac Studio(36〜48GB)

すべてのモデル(INT4/INT8)

26B を INT8 で快適に実行できます。31B を INT4 で余裕を持って実行できます。

Mac Studio / Mac Pro(64〜192GB)

すべてのモデル(すべての精度)

31B を FP16 で実行できます。究極の Gemma 4 ワークステーションです。

MLX コマンド

テキスト生成

mlx_lm.generate \
  --model mlx-community/gemma-4-e4b-it-4bit \
  --prompt "Explain quantum computing in simple terms" \
  --max-tokens 512

インタラクティブチャット

mlx_lm.chat --model mlx-community/gemma-4-e4b-it-4bit

API サーバーを起動

mlx_lm.server \
  --model mlx-community/gemma-4-e4b-it-4bit \
  --port 8080

# Then use the OpenAI-compatible API:
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "gemma-4-e4b", "messages": [{"role": "user", "content": "Hello!"}]}'

モデルを量子化

mlx_lm.convert \
  --hf-path google/gemma-4-e4b-it \
  --mlx-path ./gemma-4-e4b-4bit \
  -q --q-bits 4

パフォーマンスのヒント

メモリ消費の多いアプリを閉じる

Safari、Chrome、Docker は大量の RAM を消費する可能性があります。より大きなモデルを実行する前にこれらを閉じ、MLX に利用可能なメモリを最大化しましょう。

量子化モデルを使用する

32GB 以下の RAM を持つマシンでは常に INT4 または INT8 量子化モデルを使用してください。品質の差は最小限ですが、メモリの節約は大きいです。

コンテキスト長を調整する

より長いコンテキストウィンドウはより多くのメモリを消費します。RAM が不足している場合は、最大コンテキスト長を減らしてモデル重み用のメモリを確保してください。

メモリ圧力を監視する

アクティビティモニタでメモリ圧力を確認しましょう。黄色/赤色になった場合、システムはディスクにスワップしており、推論が劇的に遅くなります。より小さいモデルまたはより強い量子化を検討してください。

MLX + Gemma 4 よくある質問

Intel Mac で Gemma 4 を実行できますか?

MLX は Apple Silicon(M1 以降)を必要とします。Intel Mac では、任意の Mac で CPU 推論をサポートする Ollama または llama.cpp を使用してください。

MLX での Gemma 4 の速度はどれくらいですか?

性能はモデルとハードウェアによって異なります:M3 Pro 上の E4B は約 30〜40 トークン/秒、M3 Max 上の 26B MoE は約 15〜20 tok/s、M2 Ultra 上の 31B は約 10〜15 tok/s。これらの速度はインタラクティブな利用には十分です。

Mac での MLX と Ollama — どちらが良い?

両方とも Mac で優れています。Ollama はシンプル(1 コマンドセットアップ)で、組み込みの API サーバーを含んでいます。MLX はより多くの制御、より優れたメモリ効率、しばしばわずかに高速な推論を提供します。ほとんどのユーザーは Ollama から始め、最高性能のために MLX に切り替えるとよいでしょう。

MLX モデルはどこから入手できますか?

MLX フォーマットのモデルは Hugging Face で入手でき、しばしば mlx-community 組織によってアップロードされています。mlx-lm の変換ツールを使用して、任意の SafeTensors モデルを MLX フォーマットに変換することもできます。

MLX で Gemma 4 をファインチューニングできますか?

はい。mlx-lm は Apple Silicon 上での LoRA ファインチューニングをサポートしています。これにより、別の GPU サーバーを必要とせず、Mac 上で直接ドメイン向けに Gemma 4 をカスタマイズできます。

Mac で Gemma 4 にはどれくらいの RAM が必要ですか?

E4B を INT4 で動かすには最低 8GB。E4B/26B を INT4 で快適に使うには 16GB。31B を INT4 で動かすには 36〜48GB。31B を FP16 で動かすには 64GB 以上。macOS 自体が 3〜5GB を使用することに注意し、それに応じて計画してください。

mlxPage.faq.items.6.q

mlxPage.faq.items.6.a

mlxPage.faq.items.7.q

mlxPage.faq.items.7.a

mlxPage.faq.items.8.q

mlxPage.faq.items.8.a

mlxPage.faq.items.9.q

mlxPage.faq.items.9.a

Mac で Gemma 4 を実行し始めよう

Mac は AI の準備ができています。MLX をインストールし、Gemma 4 をダウンロードして、生成を始めましょう。