使用SVLS生成唇形同步视频主要分为三个关键步骤:
1. Environmental preparation
需要安装以下依赖环境:
- PyTorch GPU版本(1.12.1+cu113)及相关视觉、音频库
- FFmpeg多媒体处理工具
- 项目requirements.txt中列出的所有Python包
- 若需要使用DAIN插帧功能,还需安装PaddlePaddle深度学习框架
2. 文件准备
需要准备两个核心文件:
- driven_audio:驱动唇形生成的音频文件(如.wav格式)
- source_video:包含人像的原始视频文件(如.mp4格式)
3. 执行生成命令
通过以下典型命令启动生成过程:
python inference.py --driven_audio audio.wav --source_video video.mp4 --enhancer face --use_DAIN --time_step 0.5
其中重要参数说明:
- –enhancer:选择增强模式(none不增强/lip仅唇增强/face全脸增强)
- –use_DAIN:启用50fps插帧功能
- –time_step:控制插帧密度
生成结果默认保存在./results目录,用户可在sync_show子目录查看不同增强效果的对比视频。
This answer comes from the articleSVLS: SadTalker Enhanced to Generate Digital People Using Portrait VideoThe