LatentSync是字节跳动基于Stable Diffusion的潜在扩散模型开发的专业级AI工具。该工具创新性地结合了Whisper音频特征提取技术和U-Net网络架构,实现了从音频到视频帧的直接转换。其技术实现包含三个核心环节:
- 首先通过Whisper模型提取音频中的音素特征
- 然后利用改进的U-Net网络将音频特征映射到视频帧的潜在空间
- 最后采用Stable Diffusion的采样器生成具有时间连续性的视频序列
这种技术路线突破了传统基于3D建模的唇形同步方法,实现了更自然的效果。在1.5版本中,模型还引入了TREPA时序优化技术,显著提升了生成视频的时间一致性。
本答案来源于文章《LatentSync:用音频直接生成唇形同步视频的开源工具》