空間確率の特徴づけ技術
Gaze-LLEは、[0,1]区間に正規化された空間ヒートマップを出力し、各ピクセル値は注視確率密度に対応する。この表現は従来の座標回帰よりも解釈しやすく、注視焦点領域と不確実性レベルの両方を反映する。技術的な実装として、このモデルはDINOv2によって抽出された視覚的特徴を256×256の解像度の確率分布マップに変換する軽量デコーダを使用する。
この出力フォーマットは、特に多人数のシーン分析に適しており、1回の順伝播でシーン内の全個体の視線のヒートマップを生成することができる。ユーザーインターフェースのデザインにおいて、視線領域は確率的閾値フィルタリングによって生成することができ、また視覚的分析のために元のマップを重ねることもできる。実験によると、本手法はGazeFollowデータセットにおいて92.31 TP3TのAUC指標を達成した。
この答えは記事から得たものである。Gaze-LLE:映像中の人物注視のターゲット予測ツールについて































