Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " AI-Antworten

Die zweistufige Verarbeitungsarchitektur des M3-Agenten verbessert die Leistung beim Verstehen langer Videos drastisch

2025-08-28 274

Der M3-Agent verwendet eine zweistufige Verarbeitungsarchitektur (Memorization-Control), um die Effizienz des Verstehens langer Videos um mehr als 80% zu verbessern. In der Memorisierungsphase wird das Eingangsvideo zunächst in 30-Sekunden-Segmente geschnitten, und Zwischendarstellungen mit Gesichtsmerkmalen, Stimmmerkmalen usw. werden von einem speziellen Modell erzeugt, um schließlich eine dauerhafte Gedächtniskarte zu erstellen. Die Kontrollphase basiert auf der vLLM-Inferenzmaschine, um einen effizienten Abruf von Erinnerungen und die Generierung von Antworten zu erreichen.

Die Innovation der Architektur spiegelt sich in den folgenden Punkten wider: Die Speichernutzung wird um 401 TP3T reduziert, indem die Segmente für den Speicheraufbau und die Speichernutzung getrennt werden; sie unterstützt die Offline-Vorverarbeitung langer Videoinhalte und ermöglicht eine flexible Anpassung der Kontrollrichtlinien für verschiedene Aufgaben. In Smart-Home-Tests konnte die Abfrage-Antwortzeit für ein 30-minütiges Umgebungsvideo von 18 Sekunden im herkömmlichen End-to-End-Modell auf 3 Sekunden reduziert und die Genauigkeit um 351 TP3T verbessert werden.

Was die Hardwareanforderungen betrifft, so erfordert die vollständige Verarbeitung einen A100 (80 GB) oder vier Konfigurationen der RTX3090-Klasse, während für die reine Inferenzphase nur 16 GB Videospeicher-GPUs erforderlich sind, ein Design, das die Ressourcenzuweisung für reale Einsätze erleichtert.

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

zurück zum Anfang

de_DEDeutsch