Derzeitige Position:Abb. Anfang " AI-Werkzeugbibliothek

M3-Agent: eine multimodale Intelligenz mit Langzeitgedächtnis und der Fähigkeit, Audio und Video zu verarbeiten

2025-08-28

AI-Werkzeugbibliothek/Speicher-Cache-System

1.3 K 27

https://github.com/ByteDance-Seed/m3-agent

eine Kopie machen von

M3-Agent ist ein multimodales intelligentes Körper-Framework, das vom ByteDance SEED-Team entwickelt wurde. Sein Hauptmerkmal ist ein Langzeitgedächtnis, das in der Lage ist, sein Gedächtnis durch die Verarbeitung von Video- und Audio-Input in Echtzeit aufzubauen und ständig zu aktualisieren, genau wie der Mensch. Dieses Gedächtnissystem zeichnet nicht nur auf, was passiert ist (Situationsgedächtnis), sondern extrahiert daraus auch Wissen und Konzepte (semantisches Gedächtnis), wie z. B. das Erkennen verschiedener Personen, Objekte und der Beziehungen zwischen ihnen. Der M3-Agent fasst diese Informationen in einem multimodalen Wissensgraphen zusammen, der sich auf "Entitäten" konzentriert, um ein tieferes und kohärenteres Verständnis der Umgebung zu ermöglichen. Wenn der M3-Agent Anweisungen oder Fragen vom Benutzer erhält, ist er in der Lage, selbstständig mehrere Denk- und Schlussfolgerungsrunden durchzuführen, relevante Informationen aus einem riesigen Langzeitspeicher abzurufen und schließlich die Aufgabe zu erledigen oder eine Antwort zu geben. Diese Technologie löst das Problem bestehender Modelle, die nur schwer lange Videoinformationen verarbeiten und speichern können, und bietet ein breites Spektrum an Anwendungen in der Robotik, bei persönlichen Assistenten und in anderen Bereichen.

Funktionsliste

Multimodale Eingabeverarbeitung:: Fähigkeit, Video- und Audioströme in Echtzeit gleichzeitig zu empfangen und zu verstehen.
Aufbau des LangzeitgedächtnissesDie Fähigkeit, empfangene Informationen in das Langzeitgedächtnis zu übertragen, wird in zwei Kategorien unterteilt:
- Situationsgedächtnis:: Dokumentation von besonderen Vorkommnissen und Originalinhalten.
- semantisches GedächtnisAbstraktes Wissen über Entitäten (z. B. Personen, Objekte) und die Beziehungen zwischen ihnen aus Ereignissen destillieren.
Entitätszentrierte Speicherstrukturen:: Das Gedächtnis ist um einen Kern von Entitäten herum organisiert, um einen multimodalen Wissensgraphen zu bilden, der die Konsistenz und Relevanz der Informationen gewährleistet.
Autonomes Reasoning und RetrievalAuf einen Befehl hin kann er autonom mehrere Runden iterativen Denkens durchführen und die wichtigsten Informationen aus seinem Speicher abrufen, um die Entscheidungsfindung zu unterstützen.
Verbesserte LernoptimierungTraining der Intelligenz im Bereich Gedächtnisabruf und logisches Denken durch Verstärkungslernen, um eine höhere Erfolgsquote bei den Aufgaben zu erreichen.
Führende LeistungSignifikant höhere Genauigkeit als führende Modelle wie Gemini-1.5-pro und GPT-4o in mehreren langen Video-Quiz-Benchmarks.

Hilfe verwenden

Der Betrieb des M3-Agenten ist in zwei Kernprozesse unterteilt:Auswendiglernen und Kontrolle.. Der Speicherprozess ist für die Analyse des Videos und den Aufbau einer Wissensdatenbank zuständig, während der Kontrollprozess für den Abruf von Informationen aus der Wissensdatenbank und die Generierung von Antworten auf der Grundlage von Benutzerfragen verantwortlich ist.

Hardware-Voraussetzung

Vollständiger Lauf (einschließlich Speicherprozesse):: Erfordert einen Server mit 1 A100 (80 GB Videospeicher) oder 4 RTX 3090 (24 GB Videospeicher).
Nur Argumentation ausführen (Kontrollprozess)Ein Grafikprozessor mit mindestens 16 GB Videospeicher ist erforderlich.
FestplattenspeicherMindestens 200 GB freier Speicherplatz ist für Modell- und Prozess-Cache-Dateien erforderlich.

Umgebungseinstellungen

Zunächst müssen Sie das Code-Repository klonen und die Basisumgebung installieren.

# 执行设置脚本
bash setup.sh
# 安装特定版本的transformers库
pip install git+https://github.com/huggingface/transformers@f742a644ca32e65758c3adb36225aef1731bd2a8
# 安装Qwen-Omni工具库
pip install qwen-omni-utils==0.0.4

Schritt 1: Prozess des Auswendiglernens (Memorieren)

Bei diesem Prozess wird der Videoinhalt in eine strukturierte Speicherkarte umgewandelt, die lokal gespeichert wird. Wenn Sie den offiziell bereitgestellten M3-Bench-Datensatz verwenden, können Sie einige der Datenverarbeitungsschritte überspringen und die offiziell verarbeiteten Zwischendateien und Speicherkarten direkt herunterladen.

1. das Schneiden von Videos
Da das Modell mit kurzen Videoclips arbeitet, muss es das lange Video zunächst in 30-Sekunden-Segmente schneiden.

#!/bin/bash
# 定义视频文件路径变量
video="robot/bedroom_01"
input="data/videos/$video.mp4"
# 创建用于存放切片的目录
mkdir -p "data/clips/$video"
# 获取视频总时长
duration=$(ffprobe -v error -show_entries format=duration -of default=noprint_wrappers=1:nokey=1 "$input")
duration_seconds=$(echo "$duration" | awk '{print int($1)}')
# 计算需要切成多少段
segments=$((duration_seconds / 30 + 1))
# 循环切片
for ((i=0; i<segments; i++)); do
start=$((i * 30))
output="data/clips/$video/$i.mp4"
# 使用ffmpeg命令进行切片
ffmpeg -ss $start -i "$input" -t 30 -c copy "${output}"
done

2. die Vorbereitung der Datenkonfigurationsdateien
Erstellen Sie eine Datei im JSONL-Format, zum Beispieldata/data.jsonlbeschreibt jede Zeile Informationen über ein Video.

{"id": "bedroom_01", "video_path": "data/videos/robot/bedroom_01.mp4", "clip_path": "data/videos/clips/bedroom_01", "mem_path": "data/videos/memory_graphs/bedroom_01.pkl", "intermediate_path": "data/videos/intermediate_outputs/robot/bedroom_01"}

3. die Erzeugung von Zwischenergebnissen (fakultativ)
In diesem Schritt werden mit Hilfe von Gesichts- und Spracherkennungsprogrammen die Zwischendateien für die Erstellung der Erinnerungen erstellt. Wenn Sie die offizielle Version von Hugging Face heruntergeladen habenintermediate_outputsSie können diesen Schritt auslassen.

# 首先下载音频嵌入模型和speakerlab库存放到指定目录
# 结构应如下：
# m3-agent/
# ├── models/
# │   └── pretrained_eres2netv2.ckpt
# └── speakerlab/
python m3_agent/memorization_intermediate_outputs.py \
--data_file data/data.jsonl

4. die Erstellung von Memory Maps
M3-Agent-Memorisation wurde verwendet, um die endgültige Speicherabbildungsdatei zu erstellen (.pkl(Format).

# 首先从Hugging Face下载M3-Agent-Memorization模型
python m3_agent/memorization_memory_graphs.py \
--data_file data/data.jsonl

Schritt 2: Kontrollprozess (Kontrolle)

Sobald die Memory Map erstellt ist, kann der Frage- und Antwortprozess beginnen.

1. zusätzliche Umgebungseinstellungen
Der Kontrollprozess erfordert eine bestimmte Version der Bibliothek.

bash setup.sh
pip install transformers==4.51.0
pip install vllm==0.8.4
pip install numpy==1.26.4

2) Fragen und Bewertungen
Die Antworten werden mit Hilfe des Kontrollmodells des M3-Agenten (M3-Agent-Control) generiert und die Qualität der Antworten kann mit Hilfe des GPT-4o beurteilt werden.

# 首先从Hugging Face下载M3-Agent-Control模型
python m3_agent/control.py \
--data_file data/annotations/robot.json

darunter auchdata/annotations/robot.jsonDie Datei enthält Fragen, die als Antwort auf das Video gestellt werden können. Sie können diese Datei ändern, um Ihre eigenen Fragen zu stellen.

Abbildung des visuellen Gedächtnisses

Sie können die erstellten Gedächtniskarten auch visualisieren, um den Inhalt der Erinnerungen der Intelligenz zu veranschaulichen.

python visualization.py \
--mem_path data/memory_graphs/robot/bedroom_01.pkl \
--clip_id 1

Anwendungsszenario

Smart Home Roboter
Ein mit M3-Agent ausgestatteter Haushaltsroboter kann sich die Gewohnheiten jedes Familienmitglieds und die üblichen Standorte von Gegenständen merken, indem er die häusliche Umgebung und die Aktivitäten der Mitglieder kontinuierlich beobachtet. Wenn der Besitzer zum Beispiel fragt: "Wo habe ich meine Brille hingelegt?" Wenn der Besitzer fragt: "Wo habe ich meine Brille hingelegt?", kann sich der Roboter daran erinnern, wo er die Brille zuletzt gesehen hat, und es dem Besitzer mitteilen. Er merkt sich auch die Gewohnheit des Besitzers, morgens Kaffee zu trinken, und ergreift die Initiative, um den Kaffee zu einer bestimmten Zeit zuzubereiten.
persönlicher digitaler Assistent (PDA)
M3-Agent kann als Super-Assistent fungieren, der alle digitalen Informationen des Benutzers organisiert und speichert, einschließlich Videokonferenzen, Sprachanrufe, besuchte Webseiten und mehr. Wenn ein Nutzer ein Detail finden muss, das vor Wochen in einem Meeting besprochen wurde, kann er oder sie einfach eine Frage in natürlicher Sprache stellen, und der Assistent wird in der Lage sein, den relevanten Informationsausschnitt aus dem Langzeitgedächtnis abzurufen.
Automatisierte Inhaltsanalyse
Bei Sicherheitsanwendungen, die mit großen Mengen an Videoüberwachung zu tun haben, kann M3-Agent automatisch Tage oder sogar Monate an Filmmaterial analysieren, um eine Zeitleiste und eine Wissensdatenbank von Szenen, Personen und Aktivitäten zu erstellen. Bei der Untersuchung eines bestimmten Ereignisses müssen die Analysten nicht mehr manuell riesige Mengen an Videomaterial ansehen, sondern können dem System direkt Fragen stellen, wie z. B. "Abfrage aller Clips von Personen, die in der letzten Woche rot getragen haben", und das System kann schnell alle relevanten Aufnahmen zurückgeben.

QA

Was sind die Hauptunterschiede zwischen M3-Agent und großen Sprachmodellen wie GPT-4o?
Der Hauptunterschied besteht darin, dass der M3-Agent über ein speziell entwickeltes externes Langzeitgedächtnis verfügt; das Gedächtnis eines Modells wie GPT-4o ist hauptsächlich auf das Kontextfenster des aktuellen Dialogs beschränkt und wird nach Beendigung des Dialogs "vergessen". Der M3-Agent hingegen kann die Informationen, die er über die Kamera und das Mikrofon wahrnimmt, kontinuierlich in einer strukturierten Speicherbank ablegen, wie ein Mensch, und kann sie jederzeit in der Zukunft abrufen und darüber nachdenken.
Wie funktioniert die "Memory Map" des M3-Agenten?
Ein Memory Graph ist eine netzwerkartige Datenstruktur, in der der M3-Agent wichtige "Entitäten" (z. B. Personen, Objekte) aus Video- und Audiodaten identifiziert und sie als Knoten im Graph verwendet. Anschließend zeichnet er die Zustände, Verhaltensweisen und Beziehungen zwischen diesen Entitäten zu verschiedenen Zeiten und Ereignissen auf, und diese Informationen dienen als Kanten, die die Knoten verbinden. Durch diesen Ansatz wird das Gedächtnis weniger zu einem fragmentierten Teil als vielmehr zu einem zusammenhängenden Wissensnetz, das sich sehr gut für komplexe Schlussfolgerungen eignet.
Gibt es eine hohe technische Barriere für den Einsatz und die Nutzung von M3-Agent?
Für technisch nicht versierte Benutzer ist der direkte Einsatz mit einer gewissen Hürde verbunden, da er Vertrautheit mit der Linux-Befehlszeile, der Python-Umgebung und der Konfiguration von Deep-Learning-Modellen erfordert. Darüber hinaus sind die Hardware-Anforderungen hoch, insbesondere die Phase der Speichererzeugung, die eine starke GPU-Unterstützung erfordert. Für Entwickler und Forscher stellt das Projekt jedoch detaillierte Installations- und Ausführungsskripte zur Verfügung, und die Bereitstellung kann relativ reibungslos erfolgen, wenn die Schritte in der offiziellen Dokumentation befolgt werden.

M3-Agent: eine multimodale Intelligenz mit Langzeitgedächtnis und der Fähigkeit, Audio und Video zu verarbeiten

Funktionsliste

Hilfe verwenden

Hardware-Voraussetzung

Umgebungseinstellungen

Schritt 1: Prozess des Auswendiglernens (Memorieren)

Schritt 2: Kontrollprozess (Kontrolle)

Abbildung des visuellen Gedächtnisses

Anwendungsszenario

QA

Ähnliche Artikel

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Beliebte AI-Tools

Neue Veröffentlichungen

Neueste AI-Tools

M3-Agent: eine multimodale Intelligenz mit Langzeitgedächtnis und der Fähigkeit, Audio und Video zu verarbeiten

Funktionsliste

Hilfe verwenden

Hardware-Voraussetzung

Umgebungseinstellungen

Schritt 1: Prozess des Auswendiglernens (Memorieren)

Schritt 2: Kontrollprozess (Kontrolle)

Abbildung des visuellen Gedächtnisses

Anwendungsszenario

QA

Ähnliche Artikel

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Beliebte AI-Tools

Neue Veröffentlichungen

Neueste AI-Tools

Schnellabfragestation AI-Tool