当前位置：首页 » AI答疑

LatentSync是利用Stable Diffusion技术实现音频驱动唇形同步的开源工具

2025-08-27

2.5 K

LatentSync是字节跳动基于Stable Diffusion的潜在扩散模型开发的专业级AI工具。该工具创新性地结合了Whisper音频特征提取技术和U-Net网络架构，实现了从音频到视频帧的直接转换。其技术实现包含三个核心环节：

这种技术路线突破了传统基于3D建模的唇形同步方法，实现了更自然的效果。在1.5版本中，模型还引入了TREPA时序优化技术，显著提升了生成视频的时间一致性。

快速查询站内AI工具