海外访问：www.kdjingpai.com

Ctrl + D 收藏本站

当前位置：首页 » AI答疑

LatentSync 1.5 版本在技术层面做了哪些重要改进？

2025-08-27

2.6 K

1.5 版本技术升级

2025 年 3 月发布的 1.5 版本带来三大核心改进：

1. 时间一致性增强

采用TREPA 技术（时序相对位置注意力）减少帧间抖动
新增时序卷积层强化前后帧关联性
演示视频中画面跳动降低 42%

2. 中文处理优化

扩展 Whisper 模型的中文音素识别能力
训练数据加入 200+ 小时中文视频样本
中文唇形准确率从 78% 提升至 91%

3. 训练效率提升

U-Net 结构重构，显存占用降低 25%（20GB 即可训练）
新增 stage2_efficient.yaml 轻量配置
支持梯度检查点技术，长视频训练更稳定

这些改进使 LatentSync 在保证质量的同时更适合非专业开发者使用。

本答案来源于文章《LatentSync：用音频直接生成唇形同步视频的开源工具》

相关文章

未经允许不得转载：AI生产力工具 » LatentSync 1.5 版本在技术层面做了哪些重要改进？

相关推荐