Derzeitige Position:Abb. Anfang " AI-Antworten

Was sind die wichtigsten technischen Verbesserungen in LatentSync Version 1.5?

2025-08-27

2.6 K

Technische Verbesserungen der Version 1.5

Version 1.5, die im März 2025 veröffentlicht wurde, bringt drei wesentliche Verbesserungen:

AdoptionTREPA-Technologie(Timing Relative Positional Attention) Verringerung des Inter-Frame-Jitters
Neue temporale Faltungsschicht zur Verstärkung der Korrelation zwischen vorderen und hinteren Bildern
Reduzierte Bildschirmsprünge im Demo-Video 42%

Ausweitung des Whisper-ModellsErkennung chinesischer PhonemeFähigkeiten
Mehr als 200 Stunden chinesische Videobeispiele werden zu den Trainingsdaten hinzugefügt
Die Genauigkeit der chinesischen Lippenform wurde von 78% auf 91% verbessert.

Die U-Net-Architektur wurde rekonfiguriert, um den Speicherbedarf um 25% zu reduzieren (20GB bereit für Training)
Leichtgewichtige Konfiguration stage2_efficient.yaml hinzugefügt
etw. unterstützenSteigungskontrollpunktTechnologie für stabileres langes Videotraining

Diese Verbesserungen machen LatentSync für nicht-professionelle Entwickler geeigneter, ohne die Qualität zu beeinträchtigen.