Lösung: Nutzung der dateneffizienten Trainingsfunktionen von MM-EUREKA
Während herkömmliche multimodale Modelle Millionen von Datenproben benötigen, um die gewünschten Ergebnisse zu erzielen, durchbricht MM-EUREKA diese Beschränkung durch..:
- Regelbasiertes VerstärkungslernenDas System überträgt textuelle Inferenzregeln in den visuellen Bereich und verringert so die Abhängigkeit von Rohdaten. In der Praxis ist es lediglich erforderlich, die Konfigurationsdatei in der
use_rules=TrueSo aktivieren Sie die Funktion - Optimierungstechniken für kleine StichprobenDas im Rahmen des Projekts bereitgestellte 8B/38B-Modell ist speziell für das Training mit 8K-54K-Daten konzipiert:
- Download des offiziellen MM-Eureka-Datensatzes
- Änderungen
config.yamlden Nagel auf den Kopf treffenfew_shot: 8000Parameter - in Bewegung sein
train.pybeim Hinzufügen--few_shotsymbolisieren
- Programm zur Datenverbesserung::
- Hinzufügen von Transformationen wie Drehen und Zuschneiden zu Bildern in JSONL-Daten (erfordert Änderungen am Vorverarbeitungscode)
- Generierung unterschiedlicher Problembeschreibungen durch Umschreiben von Texten
Umsetzung der EmpfehlungenEs wird empfohlen, für den ersten Versuch eine Kombination aus der Regelmaschine und 8K Datenproben zu verwenden und dann die Datengröße zu erweitern, nachdem sich der Effekt stabilisiert hat.
Diese Antwort stammt aus dem ArtikelMM-EUREKA: Ein multimodales Reinforcement Learning Tool zur Erforschung des visuellen DenkensDie































