海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

Gaze-LLE是基于大规模学习编码器的注视目标预测工具

2025-09-10 1.9 K

Gaze-LLE的架构原理

Gaze-LLE是由佐治亚理工学院团队开发的计算机视觉工具,其核心技术架构建立在预训练视觉基础模型之上。该工具创新性地采用了冻结的DINOv2等视觉编码器作为骨干网络,仅需训练轻量级的注视解码器模块。这种设计使得模型参数量相比传统方法减少1-2个数量级,典型参数规模从数亿级压缩至数百万级。

核心突破体现在两方面:一是完全依赖RGB图像输入,摒弃了传统方法需要的深度信息或人体姿态数据;二是通过特征复用实现高效预测,单次图像编码即可支持场景中多人注视分析。这种架构使Gaze-LLE在计算效率和部署便捷性方面显著优于现有方案。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文