当前位置：首页 » AI答疑

Gaze-LLE的开源实现包含多种预训练模型变体

2025-09-10

2.0 K

模型配置的灵活性

项目开源库提供基于不同视觉编码器的四个预训练版本：包括DINOv2的ViT-B/14和ViT-L/14两种骨干网络，每种又区分纯GazeFollow训练和混合数据集训练。ViT-B版本参数量约9000万，适合移动端部署；ViT-L版本约3亿参数，适合精度优先场景。

开发者可通过PyTorch Hub一行代码加载模型，transform模块自动处理图像归一化。项目还提供Colab演示笔记本，完整展示从人脸检测到热图生成的全流程。环境配置仅需conda创建虚拟环境并安装xformers加速库，5分钟内即可完成部署。