1.5 版本技术升级
2025 年 3 月发布的 1.5 版本带来三大核心改进:
1. 时间一致性增强
- 采用TREPA 技术(时序相对位置注意力)减少帧间抖动
- 新增时序卷积层强化前后帧关联性
- 演示视频中画面跳动降低 42%
2. 中文处理优化
- 扩展 Whisper 模型的中文音素识别能力
- 训练数据加入 200+ 小时中文视频样本
- 中文唇形准确率从 78% 提升至 91%
3. 训练效率提升
- U-Net 结构重构,显存占用降低 25%(20GB 即可训练)
- 新增 stage2_efficient.yaml 轻量配置
- 支持梯度检查点技术,长视频训练更稳定
这些改进使 LatentSync 在保证质量的同时更适合非专业开发者使用。
本答案来源于文章《LatentSync:用音频直接生成唇形同步视频的开源工具》