Die zugrundeliegende technische Architektur von ChatAnyone
ChatAnyone verwendet das innovative Hierarchische Bewegungsdiffusionsmodell als technologisches Grundgerüst, eine wichtige Innovation im Bereich der digitalen Personengenerierung des HumanAIGC-Teams. Das Modell wandelt statische Bild- und Audioeingaben durch die mehrstufigen Verarbeitungsmöglichkeiten des Diffusionsalgorithmus in kohärente Bewegungssequenzen um. Bei der Implementierung ist das Modell in drei Schichten unterteilt: 1) die Kopfbewegungsschicht ist für die Erzeugung der natürlichen Kopfdrehung verantwortlich; 2) die Gestenbewegungsschicht simuliert die Körpersprache der oberen Gliedmaßen; und 3) die Ausdrucksschicht sorgt dafür, dass die Mikroausdrücke des Gesichts mit dem Sprachinhalt synchronisiert werden. Durch diesen schichtweisen Aufbau kann das System die Bewegungsparameter verschiedener Körperteile parallel verarbeiten und erzeugt biomechanisch korrektere Bewegungsabläufe als herkömmliche einschichtige LSTM-Verfahren.
In der technischen Demonstration war das System in der Lage, einen Videostrom mit einer Auflösung von 512×768 und 30 FPS in einer NVIDIA 4090 GPU-Umgebung stabil auszugeben, was die technische Machbarkeit der Architektur beweist. Auf der GitHub-Seite des Projekts ist zu lesen, dass das Bewegungsdiffusionsmodell anhand von über 1.000 Stunden kommentierter Bewegungsdaten trainiert wurde, die körpersprachliche Merkmale aus einer Vielzahl kultureller Hintergründe enthalten. Der aktuelle Code ist zwar nicht vollständig freigegeben, aber der technische Weg hat eine erlernbare Lösung für den Bereich des digitalen Menschen geschaffen.
Diese Antwort stammt aus dem ArtikelChatAnyone: ein Werkzeug zur Erstellung von digitalen Halbkörper-Porträtvideos aus FotosDie































