Gaze-LLE ist ein Tool zur Vorhersage von Blickzielen, das auf einem groß angelegten Lern-Encoder basiert und von Fiona Ryan, Ajay Bati und anderen Forschern entwickelt wurde. Das Hauptziel des Tools ist die effiziente Vorhersage des Blickziels einer Person in einem Video oder Bild mit Hilfe eines vortrainierten visuellen Basismodells (z. B. DINOv2).
Zu seinen Hauptfunktionen gehören:
- Schwerpunkt auf ZielprognosenPräzise Vorhersage der Blickposition mit Hilfe eines vortrainierten visuellen Codierers
- Vorhersage mit mehreren BlickenMehrere Personen in einem einzigen Bild können gleichzeitig verarbeitet werden.
- Leichte Architektur: nur leichtgewichtige Dekodierer auf eingefrorenen, vortrainierten Kodierern lernen müssen
- Unterstützung mehrerer ModelleBietet vortrainierte Modelle auf der Grundlage verschiedener Backbone-Netze (ViT-B/ViT-L) und Trainingsdaten
Die wesentlichen Vorteile von Gaze-LLE gegenüber vergleichbaren Werkzeugen sind eine Reduzierung der Parametergröße um 1-2 Größenordnungen und das Fehlen zusätzlicher Eingabemodalitäten (z. B. Tiefen- oder Lageinformationen).
Diese Antwort stammt aus dem ArtikelGaze-LLE: Zielvorhersage-Tool für Personenblicke in VideosDie































