Die Durchführung von Video Q&A erfordert den Abschluss von zwei Phasen: Einprägung und Kontrolle:
- Video-Vorverarbeitung:
- FFmpeg zum Schneiden langer Videos in 30-Sekunden-Clips verwenden
- Erstellen einer data.jsonl-Konfigurationsdatei zur Beschreibung der Video-Metadaten
- Speichererstellung:
- Optionale Erzeugung von Zwischenergebnissen (Gesichts-/Sprachmerkmale)
- Führen Sie memorisation_memory_graphs.py aus, um .pkl-Speicherdiagramme zu erzeugen
- Q&A Implementierung:
- Bereiten Sie die JSON-Datei mit den Fragen vor (z. B. robot.json)
- Führen Sie control.py aus, um die Memory Map für die Inferenz zu laden
- Speicherknoten für bestimmte Segmente können über visualization.py visualisiert werden
Typisches Beispiel für einen Arbeitsablauf: Bei der Bearbeitung von Überwachungsvideos zu Hause identifiziert das System zunächst Entitäten und Ereignisse wie "alter Mann", "Sofa", "Sturz" usw. und konstruiert einen Assoziationsgraphen. Wenn der Benutzer fragt: "War Oma gestern Nachmittag im Wohnzimmer aktiv?", wird das System: 1) den Zeitknoten finden; 2) den Untergraphen "Wohnzimmer" abrufen; 3) den Aktivitätsverlauf der Entität "Oma" analysieren; 4) den Aktivitätsverlauf der Entität "Oma" analysieren; und 5) die Entität "Oma" identifizieren. 3) analysiert den Aktivitätsverlauf der Entität "Oma"; 4) erzeugt eine detaillierte Antwort mit Zeitstempel.
Diese Antwort stammt aus dem ArtikelM3-Agent: eine multimodale Intelligenz mit Langzeitgedächtnis und der Fähigkeit, Audio und Video zu verarbeitenDie































