クロスシナリオの予測精度を高める3つの方法
Gaze-LLEは、事前学習ストラテジーとモデル選択によって、すでに優れた汎化能力を持っている:
- モデル選択:優先順位をつけるアウトGazeFollow+VideoAttentionTargetの協調学習データを使用し、屋内外の幅広いシーンをカバーするサフィックスモデル(例:gazelle_dinov2_vitb14_inout)。
- 転移学習:微調整のためにバックボーンの最後の3層を解凍し、新しいシーンの小さなデータサンプル(~200のラベル付きマップ)で5~10エポックをトレーニングする。
- 後処理の最適化:出力ヒートマップで非最大抑制(NMS)を実行し、信頼度<0.7の予測点をフィルタリングする閾値を設定する。
注:DINOv2の特徴抽出器はプリトレーニングで豊富なシーン特徴をすでにカバーしているため、一般的には完全に再トレーニングすることは推奨されない。対象シーンに特殊な照明条件(赤外線監視など)がある場合は、データの前処理段階でヒストグラム均等化を追加することを推奨する。
この答えは記事から得たものである。Gaze-LLE:映像中の人物注視のターゲット予測ツールについて































