SadTalker-Video-Lip-Sync ist ein Video-Lippen-Synthese-Tool, das auf der SadTalker-Implementierung basiert. Das Projekt erzeugt Lippenformen durch stimmgesteuerte Generierung und verwendet konfigurierbare Gesichtsregionsverbesserung, um die Klarheit der generierten Lippenformen zu verbessern. Das Projekt verwendet außerdem den DAIN-Frame-Interpolationsalgorithmus, um Frames im generierten Video aufzufüllen, um den Lippenübergang glatter, realistischer und natürlicher zu gestalten. Benutzer können durch einfache Befehlszeilenoperationen schnell qualitativ hochwertige Lippenformvideos erzeugen, die für verschiedene Videoproduktions- und Bearbeitungsanforderungen geeignet sind.

SadTalker Original

SadTalker Verbessert
Funktionsliste
- Sprachgesteuerte LippengenerierungSteuerung der Lippenbewegungen im Video durch die Audiodatei.
- Verschönerung des GesichtsbereichsKonfigurierbare Bildverbesserung für die Lippe oder den gesamten Gesichtsbereich zur Verbesserung der Videoklarheit.
- DAIN-Rahmen einfügenDeep-Learning-Algorithmen verwenden, um Frames in Videos zu patchen, um die Glätte des Videos zu verbessern.
- Mehrere ErweiterungsoptionenUnterstützt drei Modi: keine Verstärkung, Lippenverstärkung und vollständige Gesichtsverstärkung.
- Pre-Training ModellBieten Sie eine Vielzahl von vortrainierten Modellen an, um den Benutzern einen schnellen Einstieg zu ermöglichen.
- Einfache Bedienung über die BefehlszeileEinfach zu konfigurieren und über Kommandozeilenparameter auszuführen.
Hilfe verwenden
Vorbereitung der Umwelt
- Installieren Sie die erforderlichen Abhängigkeiten:
pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
conda install ffmpeg
pip install -r requirements.txt
- Wenn Sie das DAIN-Modell für die Rahmenfüllung verwenden möchten, müssen Sie auch Paddle installieren:
python -m pip install paddlepaddle-gpu==2.3.2.post112 -f https://www.paddlepaddle.org.cn/whl/linux/mkl/avx/stable.html
Struktur des Projekts
checkpointsSpeichern von vortrainierten Modellendian_outputDAIN: Speichert DAIN-RahmeneinfügungsausgängeexamplesBeispiele für Audio- und Videodateienresults: Ergebnisse generierensrc: Quellcodesync_showSynthese-Effekt: Demonstrationthird_part: Bibliotheken von Drittanbieterninference.py: Reasoning ScriptREADME.md: Dokument zur Projektbeschreibung
modellhafte Argumentation
Verwenden Sie den folgenden Befehl für die Modellinferenz:
python inference.py --driven_audio <audio.wav> --source_video <video.mp4> --enhancer <none, lip, face> --use_DAIN --time_step 0.5
--driven_audio: Eingabe von Audiodateien--source_video: Eingabe von Videodateien--enhancerVerbesserte Modi (keine, Lippe, Gesicht)--use_DAINDAIN-Rahmen: Ob DAIN-Rahmen verwendet werden sollen--time_stepInterpolierte Bildrate (Standardwert 0,5, d.h. 25fps -> 50fps)
Synthese-Effekt
Die erzeugten Videoeffekte werden im Fenster ./sync_show Katalog:
original.mp4: Original Videosync_none.mp4Synthese-Effekte ohne jegliche Verstärkungnone_dain_50fps.mp4Hinzufügen von 25fps zu 50fps unter ausschließlicher Verwendung des DAIN-Modellslip_dain_50fps.mp4Verbesserungen im Lippenbereich + DAIN-Modell, um 25fps zu 50fps hinzuzufügenface_dain_50fps.mp4Verbesserung des gesamten Gesichtsbereichs + DAIN-Modell zur Erhöhung von 25fps auf 50fps
Pre-Training Modell
Download-Pfad für das vortrainierte Modell:
- Baidu.com:Link (auf einer Website) Auszug Code: klfv
- Google Drive:Link (auf einer Website)





























