Eine dreistufige Lösung für Lippensynchronisationsprobleme
Die Lippensynchronisation wird in der Regel durch nicht übereinstimmende Audio-/Video-Abtastraten oder ungeeignete Modellinferenzparameter verursacht. Laut der SVLS-Projektdokumentation sind die folgenden Lösungen verfügbar:
- Verbesserung des Redeflusses mit DAIN-InterpolationHinzufügen in der Befehlszeile
--use_DAIN --time_step 0.5Durch einen Deep-Learning-Algorithmus zur Bildausfüllung erhöht das System die Bildwiederholrate von 25 auf 50 Bilder pro Sekunde, was die Kontinuität der Bewegungen erheblich verbessert. - Die Wahl des richtigen Anreicherungsmodus: Wählen Sie entsprechend der tatsächlichen Wirkung
--enhancer lip(verstärkt nur den Lippenbereich) oder--enhancer face(Full Face Enhancement), beide Modi erhöhen die Schärfe von Schlüsselbereichen durch Super-Resolution-Technologie - Überprüfung der Qualität der EingabedokumenteVergewissern Sie sich, dass es sich bei der Audiodatei um eine WAV-Datei mit einer Abtastrate von 16 kHz oder höher handelt und dass das Video eine empfohlene Auflösung von 1080p oder höher hat und alle Gesichtsmerkmale enthält.
Tests haben gezeigt, dass die Genauigkeit der Lippensynchronisation um etwa 32% verbessert werden kann, wenn die DAIN-Frame-Interpolation und der Lippenverbesserungsmodus gleichzeitig aktiviert sind.--time_stepParameter (Feinabstimmung im Bereich 0,3-0,7).
Diese Antwort stammt aus dem ArtikelSVLS: SadTalker erweitert, um digitale Personen anhand von Porträtvideos zu erzeugenDie































