Drei Möglichkeiten zur Verbesserung der szenarioübergreifenden Vorhersagegenauigkeit
Gaze-LLE hat bereits eine gute Generalisierungsfähigkeit durch Pre-Training-Strategien und Modellauswahl, und für eine weitere Verbesserung der szenenübergreifenden Genauigkeit kann es sein:
- Modellauswahl:Prioritäten setzen_inoutSuffix-Modelle (z. B. gazelle_dinov2_vitb14_inout), die GazeFollow + VideoAttentionTarget Co-Trainingsdaten verwenden, um ein breites Spektrum von Innen- und Außenszenen abzudecken
- Transfer-Lernen:Auftauen der letzten 3 Schichten des Backbone für die Feinabstimmung, Trainieren von 5-10 Epochen auf einer kleinen Datenprobe (~200 beschriftete Karten) aus der neuen Szene
- Nachbearbeitungsoptimierung:Führen Sie die Nicht-Maximum-Unterdrückung (NMS) auf der Ausgabe-Heatmap durch und legen Sie einen Schwellenwert fest, um Vorhersagepunkte mit einer Konfidenz <0,7 herauszufiltern.
Hinweis: Der Merkmalsextraktor von DINOv2 hat bereits während des Pre-Trainings eine Vielzahl von Szenenmerkmalen erfasst, und es wird im Allgemeinen nicht empfohlen, ihn komplett neu zu trainieren. Wenn die Zielszene besondere Lichtverhältnisse aufweist (z. B. Infrarot-Überwachung), wird empfohlen, in der Vorverarbeitungsphase der Daten eine Histogramm-Entzerrung durchzuführen.
Diese Antwort stammt aus dem ArtikelGaze-LLE: Zielvorhersage-Tool für Personenblicke in VideosDie































