硬件需求详解
根据官方文档,LatentSync 对硬件的要求分为推理和训练两种场景:
基础推理配置
- 显卡:NVIDIA 显卡(需支持 CUDA),显存 ≥6.8GB(如 RTX 3060)
- 系统:Linux 或 Windows(Windows 需手动调整脚本)
- 软件环境:Python 3.10 + Git + PyTorch(带 CUDA 支持)
进阶训练配置
- 推荐显卡:RTX 3090(24GB)及以上
- 显存需求:
- stage1.yaml 配置:23GB
- stage2_efficient.yaml 配置:20GB(最优性价比)
- 完整 stage2.yaml:30GB(专业用户)
- 存储空间:需预留 10GB+ 空间存放模型和训练数据
*注:实际需求会随视频分辨率(默认 256×256)和处理时长变化
本答案来源于文章《LatentSync:用音频直接生成唇形同步视频的开源工具》