Gemma 4 mit Unsloth fine-tunen
Unsloth ist eine Open-Source-Bibliothek, die das Fine-Tuning von LLMs bis zu 2x schneller macht und dabei 60% weniger Speicher verbraucht. Sie erreicht dies durch benutzerdefinierte CUDA-Kernel und optimierte Trainingsloops — ohne Genauigkeitsverlust gegenüber Standard-Training.
Gemma 4 wird in Unsloth vollständig unterstützt, einschließlich aller vier Varianten (E2B, E4B, 26B MoE, 31B). Dieser Leitfaden behandelt Installation, Datensatzvorbereitung, Trainingskonfiguration und den Export Ihres fine-getunten Modells.
Warum Fine-Tuning mit Unsloth?
2x schnelleres Training
Benutzerdefinierte Triton-Kernel optimieren Attention, MLP und Embedding-Layer. Fine-Tuning, das mit Standardmethoden 10 Stunden dauert, dauert mit Unsloth ~5 Stunden.
60% weniger Speicher
Intelligentes Gradient Checkpointing und Speicherverwaltung ermöglichen das Fine-Tuning größerer Modelle auf kleineren GPUs. Das E4B-Modell lässt sich auf einer einzelnen RTX 3090 fine-tunen.
Kein Genauigkeitsverlust
Unsloths Optimierungen sind mathematisch äquivalent zum Standardtraining. Sie erhalten dieselbe Modellqualität mit weniger Rechenaufwand — keine Näherungen oder Kompromisse.
Einfacher Export
Exportieren Sie fine-getunte Modelle zu GGUF (für Ollama/llama.cpp), SafeTensors (für vLLM) oder pushen Sie direkt zu Hugging Face — alles mit einem Befehl.
Installation
Installieren Sie Unsloth mit pip. Benötigt Python 3.10+ und PyTorch 2.0+:
pip install unslothQuick Start: E4B fine-tunen
Ein minimales Beispiel zum Fine-Tuning von Gemma 4 E4B mit LoRA auf Ihrem eigenen Datensatz:
from unsloth import FastLanguageModel
model, tokenizer = FastLanguageModel.from_pretrained(
model_name="google/gemma-4-e4b-it",
max_seq_length=4096,
load_in_4bit=True,
)
model = FastLanguageModel.get_peft_model(
model, r=16, lora_alpha=16,
target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
)
# Train with your dataset
from trl import SFTTrainer
trainer = SFTTrainer(
model=model, tokenizer=tokenizer,
train_dataset=dataset,
max_seq_length=4096,
)
trainer.train()Ihren Datensatz vorbereiten
Unsloth unterstützt mehrere Datensatzformate für das Fine-Tuning von Gemma 4:
unslothPage.datasets.formats.0.title
Konversationen mit User/Assistant-Turns. Beste Wahl für Chatbot- und Assistenten-Fine-Tuning.
unslothPage.datasets.formats.1.title
Roher Text für Continued Pre-Training oder Domain Adaptation.
unslothPage.datasets.formats.2.title
Chosen/Rejected-Paare für präferenzbasiertes Training.
Hardwareanforderungen für das Fine-Tuning
unslothPage.hardware.desc
| unslothPage.hardware.headers.model | unslothPage.hardware.headers.gpu | unslothPage.hardware.headers.time |
|---|---|---|
| E2B LoRA | RTX 3060 (12 GB) | ~15 min / 1K steps |
| E4B LoRA | RTX 4060 Ti (16 GB) | ~25 min / 1K steps |
| E4B QLoRA | RTX 3060 (12 GB) | ~30 min / 1K steps |
| 27B MoE LoRA | RTX 4090 (24 GB) | ~60 min / 1K steps |
| 27B MoE QLoRA | RTX 4070 Ti (16 GB) | ~90 min / 1K steps |
Ihr Modell exportieren
Nach dem Fine-Tuning in Ihr bevorzugtes Format exportieren:
# Save to GGUF for Ollama
model.save_pretrained_gguf("gemma4-custom", tokenizer, quantization_method="q4_k_m")
# Save to SafeTensors for vLLM
model.save_pretrained_merged("gemma4-custom-merged", tokenizer)
# Push to Hugging Face
model.push_to_hub_merged("your-username/gemma4-custom", tokenizer)Unsloth + Gemma 4 FAQ
Was ist Unsloth?
Unsloth ist eine Open-Source-Fine-Tuning-Bibliothek, die LLM-Training 2x schneller macht und 60% weniger Speicher benötigt, durch benutzerdefinierte CUDA-Kernel. Sie unterstützt Gemma 4, Llama, Mistral und andere beliebte Modellfamilien.
Kann ich Gemma 4 E4B auf einer Consumer-GPU fine-tunen?
Ja. Mit Unsloths QLoRA 4-bit können Sie E4B auf einer RTX 4060 (8GB) fine-tunen. LoRA benötigt eine RTX 3090 (24GB). Größere Modelle benötigen professionelle GPUs (A100/H100) oder Cloud-Instanzen.
Was ist LoRA vs QLoRA?
LoRA (Low-Rank Adaptation) fügt kleine trainierbare Matrizen zum Modell hinzu, während die Basisgewichte eingefroren bleiben. QLoRA quantisiert zusätzlich das Basismodell auf 4-bit und reduziert so den Speicherbedarf drastisch. Beide liefern ähnliche Qualität.
Wie viele Daten brauche ich für das Fine-Tuning?
Für Domain Adaptation reichen oft 1K-10K hochwertige Beispiele. Für Instruction Tuning funktionieren 5K-50K Konversationspaare gut. Qualität zählt mehr als Quantität — 1K exzellente Beispiele schlagen 100K verrauschte.
Kann ich LoRA-Gewichte ins Basismodell mergen?
Ja. Unsloth unterstützt das Mergen von LoRA-Gewichten ins Basismodell für Deployment ohne Adapter-Overhead. Exportieren Sie als einzelnes gemergtes Modell im GGUF- oder SafeTensors-Format.
Unterstützt Unsloth das MoE-Modell?
Ja, Unsloth unterstützt das Fine-Tuning des Gemma 4 26B A4B MoE-Modells. Aufgrund der MoE-Architektur wird LoRA typischerweise auf die Shared Layers und das Expert Routing angewendet, was mehr VRAM erfordert als Dense-Modelle mit ähnlicher aktiver Parameterzahl.
unslothPage.faq.items.6.q
unslothPage.faq.items.6.a
unslothPage.faq.items.7.q
unslothPage.faq.items.7.a
unslothPage.faq.items.8.q
unslothPage.faq.items.8.a
unslothPage.faq.items.9.q
unslothPage.faq.items.9.a
Gemma 4 Fine-Tuning starten
Installieren Sie Unsloth, bereiten Sie Ihren Datensatz vor und erstellen Sie in wenigen Stunden ein angepasstes Gemma 4 Modell.