Gaze-LLEは現在、以下の4つの標準的な事前トレーニングモデルを提供しています:
ベーシック・モデリング・グループ:
gazelle_dinov2_vitb14GazeFollowデータセットで学習したDINOv2 ViT-Bアーキテクチャに基づく。gazelle_dinov2_vitl14GazeFollowデータセットで学習したDINOv2 ViT-Lアーキテクチャに基づく。
モデルセットの充実:
gazelle_dinov2_vitb14_inoutViT-Bアーキテクチャ、GazeFollow+VideoAttentionTargetの共同トレーニングgazelle_large_vitl14_inoutViT-Lアーキテクチャ、GazeFollow+VideoAttentionTargetの共同トレーニング
セレクションの推奨
- 計算資源が限られたシナリオではViT-Bベースモデルを優先
- 最高の精度を実現するViT-Lアーキテクチャ。
- アプリケーションシナリオに屋内と屋外の環境が含まれる場合は、_inout 拡張データセットバージョンを使用することをお勧めします。
- Colabの例は、異なるモデルの予測効果を比較するために使用できる。
すべてのモデルは、PyTorch Hub経由で直接ロードして使用できるように最適化されており、追加トレーニングなしでプラグアンドプレイで視線予測が可能です。
この答えは記事から得たものである。Gaze-LLE:映像中の人物注視のターゲット予測ツールについて































