Befehlszeilen-Handbuch
Das folgende Verfahren ist ein Standardprozess, der auf LatentSync Version 1.5 basiert:
1. die Vorbereitung der Eingabedokumente
- Video AnfrageEnthält ein klares Gesicht (Vorderansicht empfohlen), das mit ffmpeg vorverarbeitet werden kann:
ffmpeg -i input.mp4 -r 25 resized.mp4
- Audio-Anforderungen: WAV-Datei mit 16000 Hz Abtastrate, Konvertierungsbefehl:
ffmpeg -i audio.mp3 -ar 16000 audio.wav
2. die Vollstreckung von Grundentscheidungen
python -m scripts.inference --unet_config_path "configs/unet/stage2_efficient.yaml" --inference_ckpt_path "checkpoints/latentsync_unet.pt" --inference_steps 25 --guidance_scale 2.0 --video_path "input.mp4" --audio_path "audio.wav" --video_out_path "output.mp4"
Beschreibung der wichtigsten Parameter
Parameter | entspricht Englisch -ity, -ism, -ization | empfohlener Wert |
---|---|---|
inferenz_Schritte | Kontrolle der Qualität der Erzeugung | 20-50 (höhere Werte sind feiner) |
anleitung_skala | Lippenanpassung Stärke | 1,0-3,0 (ein zu hoher Wert kann zu Verzerrungen führen) |
Prüfen Sie die Datei output.mp4, wenn Sie fertig sind. Wenn die Lippen nicht synchron sind, können Sie die Parameter anpassen, um sie zu regenerieren.
Diese Antwort stammt aus dem ArtikelLatentSync: ein Open-Source-Tool zur Erzeugung von lippensynchronem Video direkt aus AudioDie