Techniken zur Charakterisierung der räumlichen Wahrscheinlichkeiten
Gaze-LLE gibt eine räumliche Wärmekarte aus, die auf das Intervall [0,1] normiert ist, wobei jeder Pixelwert der Blickwahrscheinlichkeitsdichte entspricht. Diese Darstellung ist aussagekräftiger als die herkömmliche Koordinatenregression und spiegelt sowohl die Blickfokusregion als auch den Unsicherheitsgrad wider. Für die technische Umsetzung verwendet das Modell einen leichtgewichtigen Decoder, um die von DINOv2 extrahierten visuellen Merkmale in eine Wahrscheinlichkeitsverteilungskarte mit einer Auflösung von 256 × 256 umzuwandeln.
Das Ausgabeformat eignet sich besonders für die Analyse von Multiplayer-Szenen, bei der mit einer einzigen Vorwärtspropagation eine Heatmap der Blicke aller Personen in der Szene erzeugt werden kann. Bei der Gestaltung der Benutzeroberfläche können Blickregionen durch probabilistische Schwellenwertfilterung erzeugt werden, oder die ursprüngliche Karte kann zur visuellen Analyse überlagert werden. Experimente zeigen, dass die Methode eine AUC-Metrik von 92,31 TP3T auf dem GazeFollow-Datensatz erreicht.
Diese Antwort stammt aus dem ArtikelGaze-LLE: Zielvorhersage-Tool für Personenblicke in VideosDie































