Gaze-LLEは大規模な学習エンコーダーベースの視線ターゲット予測ツールです。

2025-09-10

2.1 K

Gaze-LLE的架构原理

Gaze-LLE是由佐治亚理工学院团队开发的计算机视觉工具，其核心技术架构建立在预训练视觉基础模型之上。该工具创新性地采用了冻结的DINOv2等视觉编码器作为骨干网络，仅需训练轻量级的注视解码器模块。这种设计使得模型参数量相比传统方法减少1-2个数量级，典型参数规模从数亿级压缩至数百万级。

核心突破体现在两方面：一是完全依赖RGB图像输入，摒弃了传统方法需要的深度信息或人体姿态数据；二是通过特征复用实现高效预测，单次图像编码即可支持场景中多人注视分析。这种架构使Gaze-LLE在计算效率和部署便捷性方面显著优于现有方案。