Gaze-LLE的架构原理
Gaze-LLE是由佐治亚理工学院团队开发的计算机视觉工具,其核心技术架构建立在预训练视觉基础模型之上。该工具创新性地采用了冻结的DINOv2等视觉编码器作为骨干网络,仅需训练轻量级的注视解码器模块。这种设计使得模型参数量相比传统方法减少1-2个数量级,典型参数规模从数亿级压缩至数百万级。
核心突破体现在两方面:一是完全依赖RGB图像输入,摒弃了传统方法需要的深度信息或人体姿态数据;二是通过特征复用实现高效预测,单次图像编码即可支持场景中多人注视分析。这种架构使Gaze-LLE在计算效率和部署便捷性方面显著优于现有方案。
この答えは記事から得たものである。Gaze-LLE:映像中の人物注視のターゲット予測ツールについて