Bei der Aufgabe zum Verstehen langer Videos zeigt der M3-Agent drei entscheidende Vorteile:
- Speichereffizienz:Modelle wie Gemini erfordern eine Neucodierung des gesamten Videos in ein Kontextfenster, während der M3-Agent nur die relevanten Entitätsknoten durch Speicherzuordnung abrufen muss. Bei der Verarbeitung eines einstündigen Videos muss der M3-Agent beispielsweise etwa 200.000 Token verbrauchen, während der M3-Agent nur etwa 50 relevante Knoten aktivieren muss.
- Die Tiefe der Argumentation:Im HOTPOT-QA-Videotest erreicht M3-Agent eine Genauigkeit von 721 TP3T für Probleme, die dreistufige Schlussfolgerungen erfordern, was 181 TP3T höher ist als die von Gemini-1.5-pro. Dies ist auf seine Fähigkeit zurückzuführen, Schlussfolgerungen durch Graph-Edge-Beziehungen zu verketten, wie z. B. "Objekt von Person A genommen → das Objekt gehört zu Person B → daher haben A und B eine Interaktion".
- Räumlich-zeitliche Modellierung:Der einzigartige Zeitkodierer zeichnet die relative Zeit von Ereignissen genau auf. Tests haben gezeigt, dass er bei der Beantwortung von Fragen wie "Es geschah nach X und vor Y" 27% genauer ist als das GPT-4o, was in Szenarien wie Überwachung und Analyse besonders wichtig ist.
Diese Vorteile machen den M3-Agenten in offenen Szenarien, die ein Langzeitgedächtnis erfordern (z. B. in der Heimrobotertechnik), unersetzlich, aber sein modularer Aufbau bringt auch eine höhere Einsatzkomplexität mit sich.
Diese Antwort stammt aus dem ArtikelM3-Agent: eine multimodale Intelligenz mit Langzeitgedächtnis und der Fähigkeit, Audio und Video zu verarbeitenDie































