LatentSync的1.5版本在2023年3月发布,针对中文环境进行了多项重要优化。最主要的改进是将训练所需的显存从早期版本的30GB以上降低到了20GB,这使得使用RTX 3090级别的显卡就能完成模型训练。
- 显存优化主要通过改进的U-Net网络架构实现,包括采用stage2_efficient.yaml配置
- 在推理阶段,显存需求进一步降低到仅需6.8GB
- 该版本特别增强了对中文音素的识别能力,通过重新设计的数据处理管道提升了中文音频的编码效率
这些改进使得普通开发者可以在消费级硬件上使用该工具处理中文内容,大幅降低了技术门槛。
本答案来源于文章《LatentSync:用音频直接生成唇形同步视频的开源工具》