Obwohl MiniMind-V Multi-Graph-Dialogszenarien unterstützt, müssen in der praktischen Anwendung folgende technische Details besonders beachtet werden:
Spezifikationen für die Datenkonstruktion
- Markup-FormatMulti-Graph-Daten erfordern die Verwendung von
sft_vlm_data_multi.jsonlJeder Artikel enthält 2-4 Bilder und entsprechende Dialoge. - PositionscodeEingabe von Text ist streng auf 196 begrenzt
@@@Platzhalter markieren jede Bildposition - StichprobenwaageEs wird empfohlen, das Verhältnis von Einzel-/Mehrfachdaten über 20:1 zu halten, um eine Überanpassung zu vermeiden.
Modelltrainingstechniken
- progressives TrainingEinzelbild-Vortraining vor der Einführung der Mehrbild-Feinabstimmung (zweistufiges Training)
- Optimierung der AufmerksamkeitLMConfig.py: Anpassungen in LMConfig.py
cross_attention_layersParameter Verbessertes graphenübergreifendes Verstehen - Stapelverarbeitungbatch_size ≤ 2 wird für Szenarien mit mehreren Bildern empfohlen, um einen Speicherüberlauf zu verhindern.
Strategie zur Steigerung der Wirksamkeit
- Feature-Fusion: Veränderbar
projection.pyDie MLP-Schicht im MLP implementiert fortgeschrittene Merkmalsinteraktionen - WiederaufbereitungRegelbasierte Prüfung des Ausgabetextes (z. B. Bildindexprüfung)
- Bewertung der Indikatoren:: Vorgeschlagene Anpassung spezieller Metriken wie Inter-Relationship Accuracy (IRA)
Empirische Tests zeigen, dass die derzeitige Version bei mehr als 3 Bildeingaben eine erhebliche Verschlechterung der Antwortqualität aufweist. Für industrielle Anwendungen wird ein inkrementelles Training mit Geschäftsdaten auf der Grundlage offizieller Gewichte empfohlen.
Diese Antwort stammt aus dem ArtikelMiniMind-V: 1 Stunde Training von 26M parametrischen visuellen SprachmodellenDie































