Gaze-LLE目前提供以下四种标准预训练模型:
基础模型组:
gazelle_dinov2_vitb14
:基于DINOv2 ViT-B架构,在GazeFollow数据集训练gazelle_dinov2_vitl14
:基于DINOv2 ViT-L架构,在GazeFollow数据集训练
增强模型组:
gazelle_dinov2_vitb14_inout
:ViT-B架构,联合GazeFollow+VideoAttentionTarget训练gazelle_large_vitl14_inout
:ViT-L架构,联合GazeFollow+VideoAttentionTarget训练
セレクションの推奨
- 对计算资源有限的场景优先选择ViT-B基础模型
- 需要最高精度时选用ViT-L架构
- 当应用场景包含室内外环境时推荐使用_inout扩展数据集版本
- 可通过Colab示例比较不同模型的预测效果
所有模型都经过优化,可以直接通过PyTorch Hub加载使用,无需额外训练即可实现即插即用的注视预测。
この答えは記事から得たものである。Gaze-LLE:映像中の人物注視のターゲット予測ツールについて