Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " AI-Antworten

Die Open-Source-Implementierung von Gaze-LLE umfasst mehrere vortrainierte Modellvarianten

2025-09-10 2.1 K

Flexibilität bei der Modellkonfiguration

Die Open-Source-Bibliothek des Projekts bietet vier Pre-Training-Versionen, die auf verschiedenen visuellen Codierern basieren: darunter die DINOv2-Backbone-Netze ViT-B/14 und ViT-L/14, die jeweils zwischen reinem GazeFollow-Training und Training mit gemischten Datensätzen unterscheiden. Die ViT-B-Version hat ca. 90 Millionen Parameter, geeignet für den mobilen Einsatz; die ViT-L-Version hat ca. 300 Millionen Parameter, geeignet für accuracy-first Die ViT-B Version hat ca. 90 Millionen Parameter, geeignet für den mobilen Einsatz; die ViT-L Version hat ca. 300 Millionen Parameter, geeignet für das "accuracy-first" Szenario.

Entwickler können das Modell mit einer einzigen Codezeile über PyTorch Hub laden, und das Transformationsmodul übernimmt automatisch die Bildnormalisierung. Das Projekt stellt auch Colab-Demo-Notebooks zur Verfügung, die den gesamten Prozess von der Gesichtserkennung bis zur Erzeugung von Heatmaps zeigen. Für die Umgebungskonfiguration muss lediglich mit conda eine virtuelle Umgebung erstellt und die xformers-Beschleunigungsbibliothek installiert werden; die Bereitstellung kann in 5 Minuten abgeschlossen werden.

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

zurück zum Anfang