海外访问：www.kdjingpai.com

Ctrl + D 收藏本站

当前位置：首页 » AI答疑

Gaze-LLE支持哪些预训练模型？如何选择合适的模型？

2025-09-10

2.0 K

Gaze-LLE目前提供以下四种标准预训练模型：

基础模型组：

gazelle_dinov2_vitb14：基于DINOv2 ViT-B架构，在GazeFollow数据集训练
gazelle_dinov2_vitl14：基于DINOv2 ViT-L架构，在GazeFollow数据集训练

增强模型组：

gazelle_dinov2_vitb14_inout：ViT-B架构，联合GazeFollow+VideoAttentionTarget训练
gazelle_large_vitl14_inout：ViT-L架构，联合GazeFollow+VideoAttentionTarget训练

选择建议：

对计算资源有限的场景优先选择ViT-B基础模型
需要最高精度时选用ViT-L架构
当应用场景包含室内外环境时推荐使用_inout扩展数据集版本
可通过Colab示例比较不同模型的预测效果

所有模型都经过优化，可以直接通过PyTorch Hub加载使用，无需额外训练即可实现即插即用的注视预测。

本答案来源于文章《Gaze-LLE: 视频中人物注视目标预测工具》

相关文章

未经允许不得转载：AI生产力工具 » Gaze-LLE支持哪些预训练模型？如何选择合适的模型？

相关推荐