命令行操作指南
以下是基于 LatentSync 1.5 版本的标准流程:
1. 准备输入文件
- 视频要求:包含清晰人脸(建议正面),可通过 ffmpeg 预处理:
ffmpeg -i input.mp4 -r 25 resized.mp4
- 音频要求:16000Hz 采样率 WAV 文件,转换命令:
ffmpeg -i audio.mp3 -ar 16000 audio.wav
2. 执行推理命令
python -m scripts.inference --unet_config_path "configs/unet/stage2_efficient.yaml" --inference_ckpt_path "checkpoints/latentsync_unet.pt" --inference_steps 25 --guidance_scale 2.0 --video_path "input.mp4" --audio_path "audio.wav" --video_out_path "output.mp4"
关键参数说明
参数 | 作用 | 推荐值 |
---|---|---|
inference_steps | 控制生成质量 | 20-50(数值越大越精细) |
guidance_scale | 唇形匹配强度 | 1.0-3.0(过高可能导致失真) |
完成后检查 output.mp4,若唇形不同步可调整参数重新生成。
本答案来源于文章《LatentSync:用音频直接生成唇形同步视频的开源工具》