Derzeitige Position:Abb. Anfang " AI-Antworten

Was ist Gaze-LLE und was sind seine Hauptfunktionen?

2025-09-10

2.1 K

Gaze-LLE ist ein Tool zur Vorhersage von Blickzielen, das auf einem groß angelegten Lern-Encoder basiert und von Fiona Ryan, Ajay Bati und anderen Forschern entwickelt wurde. Das Hauptziel des Tools ist die effiziente Vorhersage des Blickziels einer Person in einem Video oder Bild mit Hilfe eines vortrainierten visuellen Basismodells (z. B. DINOv2).

Zu seinen Hauptfunktionen gehören:

Schwerpunkt auf ZielprognosenPräzise Vorhersage der Blickposition mit Hilfe eines vortrainierten visuellen Codierers
Vorhersage mit mehreren BlickenMehrere Personen in einem einzigen Bild können gleichzeitig verarbeitet werden.
Leichte Architektur: nur leichtgewichtige Dekodierer auf eingefrorenen, vortrainierten Kodierern lernen müssen
Unterstützung mehrerer ModelleBietet vortrainierte Modelle auf der Grundlage verschiedener Backbone-Netze (ViT-B/ViT-L) und Trainingsdaten

Die wesentlichen Vorteile von Gaze-LLE gegenüber vergleichbaren Werkzeugen sind eine Reduzierung der Parametergröße um 1-2 Größenordnungen und das Fehlen zusätzlicher Eingabemodalitäten (z. B. Tiefen- oder Lageinformationen).

Diese Antwort stammt aus dem ArtikelGaze-LLE: Zielvorhersage-Tool für Personenblicke in VideosDie

Darf nicht ohne Genehmigung vervielfältigt werden:KI-Produktivitätswerkzeuge " Was ist Gaze-LLE und was sind seine Hauptfunktionen?