简化输入的创新设计
传统注视预测系统通常需要融合多源传感器数据,而Gaze-LLE通过预训练视觉编码器的强大表征能力,实现了仅用RGB图像的端到端预测。研究表明,DINOv2等基础模型已经隐式学习了场景深度和人体姿态相关特征,这使得附加输入模态成为非必要选项。
该技术特性带来三个实际优势:降低硬件依赖,消费级摄像头即可满足需求;简化数据处理流程,避免多源信息对齐问题;提升系统鲁棒性,减少因某一模态数据缺失导致的预测失效。在VideoAttentionTarget等基准测试中,这种简约设计反而取得了优于多模态方法的准确率。
Diese Antwort stammt aus dem ArtikelGaze-LLE: Zielvorhersage-Tool für Personenblicke in VideosDie