Technische Details der Ausdrucksübertragung auf Pixelebene
Die Facial Expression Transfer-Technologie von X-Dyna nutzt eine mehrschichtige Steuerungsarchitektur, um eine genaue Rekonstruktion in drei Dimensionen zu ermöglichen: Kopfhaltung auf der Makroebene, Bewegung der fünf Sinne auf der Mesoebene und Veränderungen der Hauttextur auf der Mikroebene. Die Technologieimplementierung stützt sich auf ein patentiertes lokales Steuermodul, das zunächst 468 Gesichtspunkte im Fahrvideo durch ein 3DMM-Modell analysiert und dann diese Parameter mit Hilfe differenzierbarer Rendering-Techniken auf den UV-Raum des Referenzbildes abbildet. Besonders bemerkenswert ist die Verarbeitung von Mikroausdrücken: Mikroausdrücke wie das Zucken der Mundwinkel und das leichte Anheben der Augenbrauen werden im verborgenen Raum spektral analysiert, und Mikrobewegungen mit Amplituden von weniger als 5 Pixeln werden von einem zeitlich geordneten Faltungsnetzwerk erfasst. Die gemessenen Daten zeigen, dass das System eine Ausdrucksübertragungsgenauigkeit von 89,71 TP3T auf einem selbst erstellten Testset erreicht, was eine Verbesserung von 121 TP3T im Vergleich zu Metas AnimatedDrawings darstellt und es besonders für digitale menschliche Anwendungsszenarien geeignet macht, die eine hohe Wiedergabetreue erfordern.
Diese Antwort stammt aus dem ArtikelX-Dyna: Still Portrait Reference Video Pose Generation Video um Missys Fotos tanzen zu lassenDie




























