ビデオ解析アプリケーションで複数の視線ターゲットのリアルタイム予測を実現するには？

2025-09-10

2.1 K

複数人のリアルタイム視線予測を可能にするソリューション

ビデオ内のターゲットを見ている複数の人物をリアルタイムで予測するには、Gaze-LLEツールの軽量アーキテクチャーを活用することができます。以下はそのための手順です：

軽量モデルの選択：推奨ガゼル・ディノフ2_vitb14このクラスは、ViT-Lバージョンよりも軽量なViT-Bモデルをベースにしている。
ハードウェアの最適化：GPUを使用した加速処理、CUDA 11.8がサポートされている場合、xformersライブラリをインストールすることで、注目計算の効率を向上させることができる。
バッチ処理戦略：PyTorchのDataLoaderを使ったマルチフレーム動画のバッチ処理
前処理の最適化：リアルタイムでビデオストリームを切り捨てる際、標準入力サイズ416×416を維持することで計算量を削減。
非同期処理：プロデューサー-コンシューマーモデルを使用して、ビデオキャプチャと視線予測を異なるスレッドに分離することができる。

技術的優位性：姿勢/深度データを追加で必要とする従来の手法に比べ、Gaze-LLEはRGB入力のみを必要とし、前処理リンクにより消費時間を約60%短縮。実験によると、RTX 3080上では、ViT-Bモデルの1フレーム処理時間を80ms以内に制御でき、リアルタイム要件を満たしている。