LatentSync ist ein professionelles KI-Tool, das von ByteDance entwickelt wurde und auf dem Potenzialdiffusionsmodell von Stable Diffusion basiert. Das Tool kombiniert innovativ die Whisper-Audio-Feature-Extraktionstechnologie und die U-Net-Netzwerkarchitektur, um eine direkte Konvertierung von Audio- in Videoframes zu erreichen. Seine technische Umsetzung besteht aus drei Kernaspekten:
- Die Phonem-Merkmale in den Audiodaten werden zunächst durch Whisper-Modellierung extrahiert
- Die Audiomerkmale werden dann mit Hilfe eines modifizierten U-Netzes auf den latenten Raum des Videobildes abgebildet
- Schließlich wird ein Sampler mit stabiler Diffusion verwendet, um Videosequenzen mit zeitlicher Kontinuität zu erzeugen
Dieser technologische Weg löst sich von der traditionellen, auf 3D-Modellierung basierenden Methode der Lippensynchronisation und sorgt für ein natürlicheres Aussehen. In Version 1.5 führt das Modell auch die TREPA-Timing-Optimierungstechnologie ein, die die zeitliche Konsistenz des generierten Videos deutlich verbessert.
Diese Antwort stammt aus dem ArtikelLatentSync: ein Open-Source-Tool zur Erzeugung von lippensynchronem Video direkt aus AudioDie