Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " AI-Antworten

什么是Gaze-LLE,它的主要功能是什么?

2025-09-10 1.9 K

Gaze-LLE是一款基于大规模学习编码器的注视目标预测工具,由Fiona Ryan、Ajay Bati等研究人员开发。该工具的核心目标是通过预训练的视觉基础模型(如DINOv2)高效预测视频或图像中人物的注视目标。

Zu seinen Hauptfunktionen gehören:

  • Schwerpunkt auf Zielprognosen:利用预训练的视觉编码器准确预测注视位置
  • Vorhersage mit mehreren Blicken:可同时处理单张图像中的多个人物
  • Leichte Architektur:仅需在冻结的预训练编码器上学习轻量级解码器
  • Unterstützung mehrerer Modelle:提供基于不同骨干网络(ViT-B/ViT-L)和训练数据的预训练模型

与同类工具相比,Gaze-LLE的突出优势是参数规模减小了1-2个数量级,且不需要额外的输入模态(如深度或姿态信息)。

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

zurück zum Anfang

de_DEDeutsch