Unsloth unterstützt derzeit die folgenden wichtigen visuellen Sprachmodelle:
- Llama 3.2 Vision (11B Parameter)
- Qwen 2.5 VL (7B Parameter)
- Pixtral (12B-Parameter)
Zu den typischen Verfahren für die Bearbeitung visueller Aufgaben gehören:
- Spezielles Laden von ModellenIm Gegensatz zu normalen LLMs sind für die Bilderzeugung spezifische Klassen erforderlich:
model = AutoModelForImageGeneration.from_pretrained("unslothai/llama-3.2-vision") - Multimodale Datenverarbeitung: Sie müssen Datensätze vorbereiten, die sowohl Bild- als auch Textkommentare enthalten.
- Gemeinsame AusbildungskonfigurationEinstellung des Parameters vision_enabled=True in TrainingArguments
- Aufgabenspezifische FeinabstimmungUnterstützt eine Vielzahl von Aufgaben wie die Erstellung von Bildbeschreibungen, visuelle Fragen und Antworten (VQA), Grafikabgleich usw.
Diese visuellen Modelle eignen sich besonders für Szenarien, die eine Kombination aus Bildverständnis und Texterstellung erfordern, wie z. B. modalübergreifende Anwendungen wie die Verwaltung intelligenter Alben und die medizinische Bildanalyse.
Diese Antwort stammt aus dem ArtikelUnsloth: ein Open-Source-Tool für die effiziente Feinabstimmung und das Training großer SprachmodelleDie































