ビデオQ&Aの実施には、暗記とコントロールという2つの段階を完了する必要がある:
- ビデオの前処理:
- FFmpegを使って長い動画を30秒のクリップにカットする
- 動画のメタデータを記述したdata.jsonl設定ファイルを作成する。
- メモリ生成:
- オプションで中間出力を生成(顔/音声機能)
- memorisation_memory_graphs.pyを実行して.pklメモリグラフを生成する。
- Q&Aの実施:
- 質問を含むJSONファイル(例:robot.json)を準備する。
- control.pyを実行し、推論用のメモリーマップをロードする。
- 特定のセグメントのメモリノードは、visualization.py で視覚化できます。
典型的なワークフロー例:家庭の監視ビデオを扱う場合、システムはまず、「老人」、「ソファー」、「転倒」などのエンティティやイベントを特定し、関連グラフを構築する。ユーザーが「昨日の午後、おばあちゃんはリビングルームで活動していたか」と質問すると、システムは次のようにする:1)時間ノードを特定する、2)「リビングルーム」サブグラフを検索する、3)「おばあちゃん」エンティティの活動軌跡を分析する、4)「おばあちゃん」エンティティの活動軌跡を分析する、5)「おばあちゃん」エンティティを特定する。3) 「おばあちゃん」エンティティの活動軌跡を分析する。4) タイムスタンプ付きの詳細な回答を生成する。
この答えは記事から得たものである。M3-Agent:長期記憶を持ち、音声と映像を処理できるマルチモーダルインテリジェンスについて































