Flexibilität bei der Modellkonfiguration
Die Open-Source-Bibliothek des Projekts bietet vier Pre-Training-Versionen, die auf verschiedenen visuellen Codierern basieren: darunter die DINOv2-Backbone-Netze ViT-B/14 und ViT-L/14, die jeweils zwischen reinem GazeFollow-Training und Training mit gemischten Datensätzen unterscheiden. Die ViT-B-Version hat ca. 90 Millionen Parameter, geeignet für den mobilen Einsatz; die ViT-L-Version hat ca. 300 Millionen Parameter, geeignet für accuracy-first Die ViT-B Version hat ca. 90 Millionen Parameter, geeignet für den mobilen Einsatz; die ViT-L Version hat ca. 300 Millionen Parameter, geeignet für das "accuracy-first" Szenario.
Entwickler können das Modell mit einer einzigen Codezeile über PyTorch Hub laden, und das Transformationsmodul übernimmt automatisch die Bildnormalisierung. Das Projekt stellt auch Colab-Demo-Notebooks zur Verfügung, die den gesamten Prozess von der Gesichtserkennung bis zur Erzeugung von Heatmaps zeigen. Für die Umgebungskonfiguration muss lediglich mit conda eine virtuelle Umgebung erstellt und die xformers-Beschleunigungsbibliothek installiert werden; die Bereitstellung kann in 5 Minuten abgeschlossen werden.
Diese Antwort stammt aus dem ArtikelGaze-LLE: Zielvorhersage-Tool für Personenblicke in VideosDie































