コマンドライン操作ガイド
以下はLatentSyncバージョン1.5に基づく標準的なプロセスである:
1.入力書類の準備
- ビデオ・リクエスト: ffmpegで前処理できるクリアな顔(正面から見た顔を推奨)を含む:
ffmpeg -i input.mp4 -r 25 resized.mp4
- オーディオ要件16000HzサンプリングレートのWAVファイル、変換コマンド:
ffmpeg -i audio.mp3 -ar 16000 audio.wav
2.理性的な命令の執行
python -m scripts.inference --unet_config_path "configs/unet/stage2_efficient.yaml" --inference_ckpt_path "checkpoints/latentsync_unet.pt" --inference_steps 25 --guidance_scale 2.0 --video_path "input.mp4" --audio_path "audio.wav" --video_out_path "output.mp4"
主要パラメータの説明
パラメトリック | は英語の -ity、-ism、-ization に対応する。 | 推奨値 |
---|---|---|
推論ステップ | 発電品質の管理 | 20~50(数値が高いほど細かい) |
ガイダンス・スケール | リップマッチング力 | 1.0~3.0(高すぎると歪みが生じる可能性がある) |
終了したらoutput.mp4をチェックし、唇が同期していなければ、パラメータを調整して再生することができる。
この答えは記事から得たものである。LatentSync: 音声から直接リップシンクされたビデオを生成するオープンソースツールについて