Gemma 4 mit Unsloth fine-tunen

Unsloth ist eine Open-Source-Bibliothek, die das Fine-Tuning von LLMs bis zu 2x schneller macht und dabei 60% weniger Speicher verbraucht. Sie erreicht dies durch benutzerdefinierte CUDA-Kernel und optimierte Trainingsloops — ohne Genauigkeitsverlust gegenüber Standard-Training.

Gemma 4 wird in Unsloth vollständig unterstützt, einschließlich aller vier Varianten (E2B, E4B, 26B MoE, 31B). Dieser Leitfaden behandelt Installation, Datensatzvorbereitung, Trainingskonfiguration und den Export Ihres fine-getunten Modells.

Warum Fine-Tuning mit Unsloth?

2x schnelleres Training

Benutzerdefinierte Triton-Kernel optimieren Attention, MLP und Embedding-Layer. Fine-Tuning, das mit Standardmethoden 10 Stunden dauert, dauert mit Unsloth ~5 Stunden.

60% weniger Speicher

Intelligentes Gradient Checkpointing und Speicherverwaltung ermöglichen das Fine-Tuning größerer Modelle auf kleineren GPUs. Das E4B-Modell lässt sich auf einer einzelnen RTX 3090 fine-tunen.

Kein Genauigkeitsverlust

Unsloths Optimierungen sind mathematisch äquivalent zum Standardtraining. Sie erhalten dieselbe Modellqualität mit weniger Rechenaufwand — keine Näherungen oder Kompromisse.

Einfacher Export

Exportieren Sie fine-getunte Modelle zu GGUF (für Ollama/llama.cpp), SafeTensors (für vLLM) oder pushen Sie direkt zu Hugging Face — alles mit einem Befehl.

Installation

Installieren Sie Unsloth mit pip. Benötigt Python 3.10+ und PyTorch 2.0+:

pip install unsloth

Quick Start: E4B fine-tunen

Ein minimales Beispiel zum Fine-Tuning von Gemma 4 E4B mit LoRA auf Ihrem eigenen Datensatz:

from unsloth import FastLanguageModel

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="google/gemma-4-e4b-it",
    max_seq_length=4096,
    load_in_4bit=True,
)

model = FastLanguageModel.get_peft_model(
    model, r=16, lora_alpha=16,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
)

# Train with your dataset
from trl import SFTTrainer
trainer = SFTTrainer(
    model=model, tokenizer=tokenizer,
    train_dataset=dataset,
    max_seq_length=4096,
)
trainer.train()

Ihren Datensatz vorbereiten

Unsloth unterstützt mehrere Datensatzformate für das Fine-Tuning von Gemma 4:

unslothPage.datasets.formats.0.title

Konversationen mit User/Assistant-Turns. Beste Wahl für Chatbot- und Assistenten-Fine-Tuning.

unslothPage.datasets.formats.1.title

Roher Text für Continued Pre-Training oder Domain Adaptation.

unslothPage.datasets.formats.2.title

Chosen/Rejected-Paare für präferenzbasiertes Training.

Hardwareanforderungen für das Fine-Tuning

unslothPage.hardware.desc

unslothPage.hardware.headers.model	unslothPage.hardware.headers.gpu	unslothPage.hardware.headers.time
E2B LoRA	RTX 3060 (12 GB)	~15 min / 1K steps
E4B LoRA	RTX 4060 Ti (16 GB)	~25 min / 1K steps
E4B QLoRA	RTX 3060 (12 GB)	~30 min / 1K steps
27B MoE LoRA	RTX 4090 (24 GB)	~60 min / 1K steps
27B MoE QLoRA	RTX 4070 Ti (16 GB)	~90 min / 1K steps

Ihr Modell exportieren

Nach dem Fine-Tuning in Ihr bevorzugtes Format exportieren:

# Save to GGUF for Ollama
model.save_pretrained_gguf("gemma4-custom", tokenizer, quantization_method="q4_k_m")

# Save to SafeTensors for vLLM
model.save_pretrained_merged("gemma4-custom-merged", tokenizer)

# Push to Hugging Face
model.push_to_hub_merged("your-username/gemma4-custom", tokenizer)

Unsloth + Gemma 4 FAQ

Was ist Unsloth?

Unsloth ist eine Open-Source-Fine-Tuning-Bibliothek, die LLM-Training 2x schneller macht und 60% weniger Speicher benötigt, durch benutzerdefinierte CUDA-Kernel. Sie unterstützt Gemma 4, Llama, Mistral und andere beliebte Modellfamilien.

Kann ich Gemma 4 E4B auf einer Consumer-GPU fine-tunen?

Ja. Mit Unsloths QLoRA 4-bit können Sie E4B auf einer RTX 4060 (8GB) fine-tunen. LoRA benötigt eine RTX 3090 (24GB). Größere Modelle benötigen professionelle GPUs (A100/H100) oder Cloud-Instanzen.

Was ist LoRA vs QLoRA?

LoRA (Low-Rank Adaptation) fügt kleine trainierbare Matrizen zum Modell hinzu, während die Basisgewichte eingefroren bleiben. QLoRA quantisiert zusätzlich das Basismodell auf 4-bit und reduziert so den Speicherbedarf drastisch. Beide liefern ähnliche Qualität.

Wie viele Daten brauche ich für das Fine-Tuning?

Für Domain Adaptation reichen oft 1K-10K hochwertige Beispiele. Für Instruction Tuning funktionieren 5K-50K Konversationspaare gut. Qualität zählt mehr als Quantität — 1K exzellente Beispiele schlagen 100K verrauschte.

Kann ich LoRA-Gewichte ins Basismodell mergen?

Ja. Unsloth unterstützt das Mergen von LoRA-Gewichten ins Basismodell für Deployment ohne Adapter-Overhead. Exportieren Sie als einzelnes gemergtes Modell im GGUF- oder SafeTensors-Format.

Unterstützt Unsloth das MoE-Modell?

Ja, Unsloth unterstützt das Fine-Tuning des Gemma 4 26B A4B MoE-Modells. Aufgrund der MoE-Architektur wird LoRA typischerweise auf die Shared Layers und das Expert Routing angewendet, was mehr VRAM erfordert als Dense-Modelle mit ähnlicher aktiver Parameterzahl.

unslothPage.faq.items.6.q

unslothPage.faq.items.6.a

unslothPage.faq.items.7.q

unslothPage.faq.items.7.a

unslothPage.faq.items.8.q

unslothPage.faq.items.8.a

unslothPage.faq.items.9.q

unslothPage.faq.items.9.a

Gemma 4 Fine-Tuning starten

Installieren Sie Unsloth, bereiten Sie Ihren Datensatz vor und erstellen Sie in wenigen Stunden ein angepasstes Gemma 4 Modell.

Basismodelle herunterladen Variante wählen Hardwareanforderungen