海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

Gaze-LLE的开源实现包含多种预训练模型变体

2025-09-10 1.9 K

模型配置的灵活性

项目开源库提供基于不同视觉编码器的四个预训练版本:包括DINOv2的ViT-B/14和ViT-L/14两种骨干网络,每种又区分纯GazeFollow训练和混合数据集训练。ViT-B版本参数量约9000万,适合移动端部署;ViT-L版本约3亿参数,适合精度优先场景。

开发者可通过PyTorch Hub一行代码加载模型,transform模块自动处理图像归一化。项目还提供Colab演示笔记本,完整展示从人脸检测到热图生成的全流程。环境配置仅需conda创建虚拟环境并安装xformers加速库,5分钟内即可完成部署。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文