Der M3-Agent verwendet eine zweistufige Verarbeitungsarchitektur (Memorization-Control), um die Effizienz des Verstehens langer Videos um mehr als 80% zu verbessern. In der Memorisierungsphase wird das Eingangsvideo zunächst in 30-Sekunden-Segmente geschnitten, und Zwischendarstellungen mit Gesichtsmerkmalen, Stimmmerkmalen usw. werden von einem speziellen Modell erzeugt, um schließlich eine dauerhafte Gedächtniskarte zu erstellen. Die Kontrollphase basiert auf der vLLM-Inferenzmaschine, um einen effizienten Abruf von Erinnerungen und die Generierung von Antworten zu erreichen.
Die Innovation der Architektur spiegelt sich in den folgenden Punkten wider: Die Speichernutzung wird um 401 TP3T reduziert, indem die Segmente für den Speicheraufbau und die Speichernutzung getrennt werden; sie unterstützt die Offline-Vorverarbeitung langer Videoinhalte und ermöglicht eine flexible Anpassung der Kontrollrichtlinien für verschiedene Aufgaben. In Smart-Home-Tests konnte die Abfrage-Antwortzeit für ein 30-minütiges Umgebungsvideo von 18 Sekunden im herkömmlichen End-to-End-Modell auf 3 Sekunden reduziert und die Genauigkeit um 351 TP3T verbessert werden.
Was die Hardwareanforderungen betrifft, so erfordert die vollständige Verarbeitung einen A100 (80 GB) oder vier Konfigurationen der RTX3090-Klasse, während für die reine Inferenzphase nur 16 GB Videospeicher-GPUs erforderlich sind, ein Design, das die Ressourcenzuweisung für reale Einsätze erleichtert.
Diese Antwort stammt aus dem ArtikelM3-Agent: eine multimodale Intelligenz mit Langzeitgedächtnis und der Fähigkeit, Audio und Video zu verarbeitenDie




























