LatentSync 概述
LatentSync 是字节跳动开发的开源音频驱动唇形同步工具,基于 Stable Diffusion 的潜在扩散模型 (latent diffusion) 构建。它能将输入的音频和视频直接合成为唇形精准匹配的输出视频,无需人工逐帧调整。
核心优势对比
- 技术架构:结合 Whisper 提取音频特征 + U-Net 生成视频帧,比传统关键点检测方法更自然
- 端到端处理:直接输出完整视频(无需先提取中间参数)
- 语言适配:1.5 版本专门优化中文支持(同类工具如 Wav2Lip 主要针对英语)
- 硬件友好:推理仅需 6.8GB 显存,训练需求降至 20GB(同类工具常需 24GB+)
- 开源免费:提供完整代码和预训练模型(商业方案如 Adobe Character Animator 需订阅)
本答案来源于文章《LatentSync:用音频直接生成唇形同步视频的开源工具》