海外访问：www.kdjingpai.com

Ctrl + D 收藏本站

当前位置：首页 » AI答疑

什么是 LatentSync？它与其他唇形同步工具相比有哪些优势？

2025-08-27

2.6 K

LatentSync 概述

LatentSync 是字节跳动开发的开源音频驱动唇形同步工具，基于 Stable Diffusion 的潜在扩散模型 (latent diffusion) 构建。它能将输入的音频和视频直接合成为唇形精准匹配的输出视频，无需人工逐帧调整。

核心优势对比

技术架构：结合 Whisper 提取音频特征 + U-Net 生成视频帧，比传统关键点检测方法更自然
端到端处理：直接输出完整视频（无需先提取中间参数）
语言适配：1.5 版本专门优化中文支持（同类工具如 Wav2Lip 主要针对英语）
硬件友好：推理仅需 6.8GB 显存，训练需求降至 20GB（同类工具常需 24GB+）
开源免费：提供完整代码和预训练模型（商业方案如 Adobe Character Animator 需订阅）

本答案来源于文章《LatentSync：用音频直接生成唇形同步视频的开源工具》

相关文章

未经允许不得转载：AI生产力工具 » 什么是 LatentSync？它与其他唇形同步工具相比有哪些优势？

相关推荐