当前位置：首页 » AI答疑

Gaze-LLE的多模态输入无关特性是其关键优势

2025-09-10

1.9 K

简化输入的创新设计

传统注视预测系统通常需要融合多源传感器数据，而Gaze-LLE通过预训练视觉编码器的强大表征能力，实现了仅用RGB图像的端到端预测。研究表明，DINOv2等基础模型已经隐式学习了场景深度和人体姿态相关特征，这使得附加输入模态成为非必要选项。

该技术特性带来三个实际优势：降低硬件依赖，消费级摄像头即可满足需求；简化数据处理流程，避免多源信息对齐问题；提升系统鲁棒性，减少因某一模态数据缺失导致的预测失效。在VideoAttentionTarget等基准测试中，这种简约设计反而取得了优于多模态方法的准确率。