海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする
現在の場所図頭 " AIアンサー

Gaze-LLE是基于大规模学习编码器的注视目标预测工具

2025-09-10 1.9 K

Gaze-LLE的架构原理

Gaze-LLE是由佐治亚理工学院团队开发的计算机视觉工具,其核心技术架构建立在预训练视觉基础模型之上。该工具创新性地采用了冻结的DINOv2等视觉编码器作为骨干网络,仅需训练轻量级的注视解码器模块。这种设计使得模型参数量相比传统方法减少1-2个数量级,典型参数规模从数亿级压缩至数百万级。

核心突破体现在两方面:一是完全依赖RGB图像输入,摒弃了传统方法需要的深度信息或人体姿态数据;二是通过特征复用实现高效预测,单次图像编码即可支持场景中多人注视分析。这种架构使Gaze-LLE在计算效率和部署便捷性方面显著优于现有方案。

おすすめ

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

トップに戻る

ja日本語