Ein praktisches Schema für den modusübergreifenden Abgleich von Merkmalen
MiniMind-V löst die zentralen Herausforderungen des visuell-verbalen Merkmalsabgleichs mit dem folgenden innovativen Ansatz:
- Visuelle Kodierungsoptionen::
- Visuelle Merkmale wurden direkt mit dem vortrainierten CLIP-Modell extrahiert (196 Token)
- Beibehaltung des leistungsstarken cross-modalen semantischen Raums von CLIP
- Entwurf der Projektionsebene::
- Ein spezielles Modul zur Merkmalsprojektion verbindet visuelle und verbale Modalitäten
- Abbildung von Bild-Token-Dimensionen auf den Sprachmodell-Eingaberaum
- Effiziente Ausrichtung mit einfachen linearen Schichten
- Optimierung der Ausbildungsstrategien::
- In der Vortrainingsphase werden nur die Projektionsschicht und die letzte Schicht des Sprachmodells fein abgestimmt.
- Schrittweises Einfrieren weiterer Parameter in der Phase der Feinabstimmung
- Verbesserung des cross-modalen Verständnisses durch Kontrast-Lernverlust
Praktischer Vorschlag: Für benutzerdefinierte Datensätze können Sie den visuellen Kodierer einfrieren, um zunächst nur die Projektionsschicht für 1-2 Epochen zu trainieren, und dann weitere Parameter auftauen, nachdem der Verlust stabil ist. Das Projekt bietet ein komplettes Skript zur Überwachung der Ausrichtung, mit dem die Änderungen der räumlichen Verteilung der Merkmale durch wandb beobachtet werden können.
Diese Antwort stammt aus dem ArtikelMiniMind-V: 1 Stunde Training von 26M parametrischen visuellen SprachmodellenDie