Technische Verbesserungen der Version 1.5
Version 1.5, die im März 2025 veröffentlicht wurde, bringt drei wesentliche Verbesserungen:
1. erhöhte zeitliche Konsistenz
- AdoptionTREPA-Technologie(Timing Relative Positional Attention) Verringerung des Inter-Frame-Jitters
- Neue temporale Faltungsschicht zur Verstärkung der Korrelation zwischen vorderen und hinteren Bildern
- Reduzierte Bildschirmsprünge im Demo-Video 42%
2. die Optimierung der chinesischen Verarbeitung
- Ausweitung des Whisper-ModellsErkennung chinesischer PhonemeFähigkeiten
- Mehr als 200 Stunden chinesische Videobeispiele werden zu den Trainingsdaten hinzugefügt
- Die Genauigkeit der chinesischen Lippenform wurde von 78% auf 91% verbessert.
3. die Effizienzsteigerung der Ausbildung
- Die U-Net-Architektur wurde rekonfiguriert, um den Speicherbedarf um 25% zu reduzieren (20GB bereit für Training)
- Leichtgewichtige Konfiguration stage2_efficient.yaml hinzugefügt
- etw. unterstützenSteigungskontrollpunktTechnologie für stabileres langes Videotraining
Diese Verbesserungen machen LatentSync für nicht-professionelle Entwickler geeigneter, ohne die Qualität zu beeinträchtigen.
Diese Antwort stammt aus dem ArtikelLatentSync: ein Open-Source-Tool zur Erzeugung von lippensynchronem Video direkt aus AudioDie