M3-Agentの革新的なコアは、記憶構造としてエンティティ中心の知識グラフを使用することである。このシステムは、ビデオやオーディオの入力から主要なエンティティ(キャラクターやオブジェクトなど)を自動的に識別し、これらのエンティティをグラフのノードとして使用します。エンティティの状態変化、行動パフォーマンス、および異なる時点における他のエンティティとの相互作用が、ノードを接続するエッジを形成する。
このアーキテクチャは3つの重要な利点をもたらす。第一に、離散的なマルチモーダル情報が有機的なリンクネットワークを形成できること、第二に、時間次元を超えた連想クエリと推論をサポートすること、第三に、記憶の更新の一貫性を保証することである。例えば、家庭のシナリオでは、システムは「所有者-コーヒーメーカー-使用時間」の関連ネットワークを確立することができ、所有者がコーヒーメーカーのメンテナンスのアドバイスを求めると、使用頻度と他の記憶ノードを自動的に関連付け、パーソナライズされたアドバイスを与えることができる。
可視化ツールによれば、典型的な30分のホームビデオは、50-100のエンティティ・ノードと300-500の関係を含む知識グラフを生成することができる。
この答えは記事から得たものである。M3-Agent:長期記憶を持ち、音声と映像を処理できるマルチモーダルインテリジェンスについて































