模型配置的灵活性
项目开源库提供基于不同视觉编码器的四个预训练版本:包括DINOv2的ViT-B/14和ViT-L/14两种骨干网络,每种又区分纯GazeFollow训练和混合数据集训练。ViT-B版本参数量约9000万,适合移动端部署;ViT-L版本约3亿参数,适合精度优先场景。
开发者可通过PyTorch Hub一行代码加载模型,transform模块自动处理图像归一化。项目还提供Colab演示笔记本,完整展示从人脸检测到热图生成的全流程。环境配置仅需conda创建虚拟环境并安装xformers加速库,5分钟内即可完成部署。
Essa resposta foi extraída do artigoGaze-LLE: ferramenta de previsão de alvos para o olhar de pessoas em vídeosO