Gaze-LLE bietet derzeit die folgenden vier Standard-Vorschulungsmodelle an:
Basic Modelling Group:
gazelle_dinov2_vitb14Basierend auf der DINOv2 ViT-B Architektur, trainiert auf dem GazeFollow-Datensatzgazelle_dinov2_vitl14Basierend auf der DINOv2 ViT-L Architektur, trainiert auf dem GazeFollow-Datensatz
Verbesserte Modellsätze:
gazelle_dinov2_vitb14_inoutViT-B Architektur, gemeinsames GazeFollow + VideoAttentionTarget Traininggazelle_large_vitl14_inoutViT-L Architektur, gemeinsames GazeFollow + VideoAttentionTarget Training
Empfehlungen für die Auswahl:
- Bevorzugung des ViT-B-Basismodells für Szenarien mit begrenzten Rechenressourcen
- ViT-L Architektur für höchste Präzision.
- Wenn das Anwendungsszenario Innen- und Außenbereiche umfasst, wird empfohlen, die erweiterte Datensatzversion _inout zu verwenden
- Die Vorhersageeffekte der verschiedenen Modelle können mit dem Colab-Beispiel verglichen werden
Alle Modelle sind so optimiert, dass sie direkt über PyTorch Hub geladen und verwendet werden können, was eine Plug-and-Play-Blickvorhersage ohne zusätzliches Training ermöglicht.
Diese Antwort stammt aus dem ArtikelGaze-LLE: Zielvorhersage-Tool für Personenblicke in VideosDie































