Die von LatentSync in Version 1.5 eingeführte TREPA-Technologie (Temporal Regularization for Parallel Attention) löst das häufige Problem des Bildschirmflimmerns in KI-generierten Videos. Diese innovative Technologie arbeitet an drei Schlüsselpunkten:
- Hinzufügen eines zeitlichen Regularisierungsterms zum Aufmerksamkeitsmechanismus von U-Net, um Merkmalsänderungen in benachbarten Frames einzuschränken
- Bestrafung unnatürlicher Zeitsprünge durch speziell entwickelte Verlustfunktionen
- Herstellung einer Inter-Frame-Korrelation im potenziellen Raum, anstatt jedes Frame einzeln zu optimieren
Im Vergleich zu herkömmlichen Frame-by-Frame-Verarbeitungsmethoden gewährleistet TREPA die Kohärenz der Videosequenz und erhält gleichzeitig die Qualität eines Einzelbildes. Tests zeigen, dass diese Technik die subjektive Bewertung der Sprachflüssigkeit des erzeugten Videos um 371 TP3T verbessert, ohne dass zusätzlicher Rechenaufwand entsteht.
Diese Antwort stammt aus dem ArtikelLatentSync: ein Open-Source-Tool zur Erzeugung von lippensynchronem Video direkt aus AudioDie