Overseas access: www.kdjingpai.com
Bookmark Us
Current Position:fig. beginning " AI Answers

Gaze-LLE是基于大规模学习编码器的注视目标预测工具

2025-09-10 1.9 K

Gaze-LLE的架构原理

Gaze-LLE是由佐治亚理工学院团队开发的计算机视觉工具,其核心技术架构建立在预训练视觉基础模型之上。该工具创新性地采用了冻结的DINOv2等视觉编码器作为骨干网络,仅需训练轻量级的注视解码器模块。这种设计使得模型参数量相比传统方法减少1-2个数量级,典型参数规模从数亿级压缩至数百万级。

核心突破体现在两方面:一是完全依赖RGB图像输入,摒弃了传统方法需要的深度信息或人体姿态数据;二是通过特征复用实现高效预测,单次图像编码即可支持场景中多人注视分析。这种架构使Gaze-LLE在计算效率和部署便捷性方面显著优于现有方案。

Recommended

Can't find AI tools? Try here!

Just type in the keyword Accessibility Bing SearchYou can quickly find all the AI tools on this site.

Top

en_USEnglish