ChatAnyone ist ein vom HumanAIGC-Team entwickeltes KI-Tool zur Generierung digitaler Menschen, dessen Hauptfunktion darin besteht, aus einem einzigen Porträtfoto und einer Audioeingabe automatisch digitale Menschenvideos mit Oberkörperbewegungen (einschließlich Kopfdrehung, Gestenänderung und Mimik) zu generieren. Das Projekt basiert auf der Technik der hierarchischen Bewegungsdiffusionsmodellierung und umfasst folgende Hauptfunktionen:
- Multimodale Eingänge und AusgängeUmwandlung von Standbildern mit Ton in bewegte Videos
- Fähigkeit zur BewegungserzeugungUnterstützt Kopfbewegungen (z. B. Nicken), 6 grundlegende Gesten (z. B. Herzen, Winken) und Lippensynchronisation
- Professionelle AusgabeUnterstützt eine Auflösung von bis zu 512 x 768, 30FPS Videogenerierung und effizientes Rendering auf NVIDIA 4090 GPUs
Im Vergleich zu ähnlichen Tools zeichnet es sich dadurch aus, dass es sich auf die Verfeinerung der dynamischen Details des Oberkörpers konzentriert und für technische Szenarien wie virtuelle Bilddarstellung und Animationsproduktion geeignet ist. Derzeit konzentriert sich das Projekt auf die Demonstration der Technologie und teilt Implementierungsdetails über GitHub, ist aber nicht vollständig Open Source.
Diese Antwort stammt aus dem ArtikelChatAnyone: ein Werkzeug zur Erstellung von digitalen Halbkörper-Porträtvideos aus FotosDie































