LatentSync在1.5版本中引入的TREPA(Temporal Regularization for Parallel Attention)技术解决了AI生成视频常见的画面闪烁问题。这项创新技术的工作原理包含三个关键点:
- 在U-Net的注意力机制中加入时序正则化项,约束相邻帧的特征变化
- 通过特殊设计的损失函数惩罚不自然的时间跳跃
- 在潜在空间中建立帧间相关性,而非单独优化每一帧
相比传统的逐帧处理方法,TREPA可以在保持单帧质量的同时,确保视频序列的连贯性。测试表明,这项技术将生成视频的主观流畅度评分提升了37%,且不增加额外的计算开销。
本答案来源于文章《LatentSync:用音频直接生成唇形同步视频的开源工具》