Die zentrale Innovation von M3-Agent ist die Verwendung eines entitätszentrierten Wissensgraphen als Speicherstruktur. Das System identifiziert automatisch Schlüsselentitäten (z. B. Figuren, Objekte) aus Video- und Audio-Inputs und verwendet diese Entitäten als Graphknoten. Die Zustandsänderungen der Entitäten, ihr Verhalten und ihre Interaktionen mit anderen Entitäten zu verschiedenen Zeitpunkten bilden die Kanten, die die Knoten verbinden.
Diese Architektur bietet drei wesentliche Vorteile: Erstens können diskrete multimodale Informationen ein organisches Verknüpfungsnetz bilden, zweitens unterstützt sie assoziative Abfragen und Schlussfolgerungen über zeitliche Dimensionen hinweg und drittens gewährleistet sie die Kohärenz von Speicheraktualisierungen. In einem Heimszenario kann das System beispielsweise ein Assoziationsnetzwerk "Besitzer-Kaffeemaschine-Nutzungszeit" aufbauen, und wenn der Besitzer um Ratschläge zur Wartung der Kaffeemaschine bittet, kann es automatisch die Nutzungshäufigkeit und andere Gedächtnisknoten miteinander in Beziehung setzen, um personalisierte Ratschläge zu geben.
Visualisierungstools zeigen, dass ein typisches 30-minütiges Heimvideo einen Wissensgraphen mit 50-100 Entitätsknoten und 300-500 Beziehungen erzeugen kann, eine strukturelle Dichte, die weit über die herkömmlicher Vektordatenbanken hinausgeht.
Diese Antwort stammt aus dem ArtikelM3-Agent: eine multimodale Intelligenz mit Langzeitgedächtnis und der Fähigkeit, Audio und Video zu verarbeitenDie































