シンプルな入力のための革新的なデザイン
従来の視線予測システムは通常、複数のセンサーデータの融合を必要とするが、Gaze-LLEは事前に訓練された視覚コーダーの強力な表現能力により、RGB画像のみを使用したエンドツーエンドの予測を可能にする。DINOv2のようなベースモデルは、すでにシーンの奥行きと人間のポーズに関連する特徴を暗黙的に学習しており、追加入力モダリティが必要不可欠なオプションではないことが示される。
この技術的特徴は3つの実用的な利点をもたらす。それは、民生グレードのカメラで対応可能なハードウェア依存性を低減すること、データ処理の流れを単純化し、複数のソースからの情報を整合させる問題を回避すること、そしてシステムのロバスト性を向上させ、特定のモダリティからのデータ不足による予測失敗を低減することである。VideoAttentionTargetのようなベンチマークでは、この簡潔な設計はマルチモーダルアプローチよりも高い精度を達成します。
この答えは記事から得たものである。Gaze-LLE:映像中の人物注視のターゲット予測ツールについて































