Die Erstellung von Lippensynchronisationsvideos mit SVLS ist in drei Hauptschritte unterteilt:
1. die Vorbereitung der Umwelt
Die folgenden Abhängigkeiten müssen installiert werden:
- PyTorch GPU-Version (1.12.1+cu113) und zugehörige Grafik- und Audiobibliotheken
- FFmpeg Multimedia-Verarbeitungswerkzeuge
- Alle in project requirements.txt aufgeführten Python-Pakete
- Wenn Sie die DAIN-Frame-Interpolationsfunktion verwenden möchten, müssen Sie auch das Deep-Learning-Framework PaddlePaddle installieren.
2. die Vorbereitung der Dokumente
Es müssen zwei zentrale Dokumente erstellt werden:
- angetriebenes_AudioAudiodatei (z. B. im .wav-Format), die vom Treiber Lip-Sync erzeugt wird
- quelle_videoOriginal-Videodatei mit dem Porträt (z. B. im .mp4-Format)
3. die Ausführung des Generierungsauftrags
Der Generierungsprozess wird mit den folgenden typischen Befehlen eingeleitet:
python inference.py --driven_audio audio.wav --source_video video.mp4 --enhancer face --use_DAIN --time_step 0.5
wo wichtige Parameter beschrieben werden:
- -VerstärkerWählen Sie den Verbesserungsmodus aus (keine, keine Verbesserung/Lippe, nur Lippenverbesserung/Gesicht, vollständige Gesichtsverbesserung).
- -Verwendung_DAIN50fps Bildinterpolation aktivieren
- -zeit_schrittKontrolle der Rahmeneinfügedichte
Die generierten Ergebnisse werden standardmäßig im Verzeichnis . /results gespeichert. Die Benutzer können das Vergleichsvideo der verschiedenen Erweiterungseffekte im Unterverzeichnis sync_show ansehen.
Diese Antwort stammt aus dem ArtikelSVLS: SadTalker erweitert, um digitale Personen anhand von Porträtvideos zu erzeugenDie































