Gaze-LLE在技术架构上实现了多项创新突破:
1. 模型效率提升
- 参数规模减少1-2个数量级
- 仅需训练轻量级注视解码器,基础编码器保持冻结
2. 输入模态简化
- 摆脱对深度传感器/姿态估计的依赖
- 仅需RGB图像作为输入
3. 基础模型创新
- 采用DINOv2等先进视觉基础模型
- 支持ViT-B/ViT-L等多种骨干网络
4. 训练数据扩展
- 支持GazeFollow和VideoAttentionTarget数据集联合训练
- 提供不同数据组合的预训练模型
这些技术优势使得Gaze-LLE在计算资源占用、部署便捷性和预测准确性等方面都具有显著优势,特别适合实时视频分析等应用场景。
この答えは記事から得たものである。Gaze-LLE:映像中の人物注視のターゲット予測ツールについて