LatentSync提供了一套专业的数据预处理流程,确保输入视频符合模型要求。该数据处理管道采用多级质量检验机制:
- 使用PySceneDetect进行场景分割,保留5-10秒的有效片段
- 通过face-alignment库检测并对齐人脸区域,统一调整为256×256分辨率
- 基于SyncNet计算音视频同步分数,过滤得分低于3的样本
- 采用hyperIQA评估视觉质量,移除分数低于40的低质量内容
这套流程不仅保证了训练数据的质量,也为推理阶段的输入预处理提供了标准参考。官方建议用户在使用前按照相同标准处理自定义数据,这是获得理想结果的关键。
本答案来源于文章《LatentSync:用音频直接生成唇形同步视频的开源工具》