硬件需求详解
根据官方文档,LatentSync 对硬件的要求分为Inferenzim Gesang antwortenZug两种场景:
基础推理配置
- Anzeigekarte (Computer):NVIDIA 显卡(需支持 CUDA),显存 ≥6.8GB(如 RTX 3060)
- Systeme:Linux 或 Windows(Windows 需手动调整脚本)
- Softwareumgebung:Python 3.10 + Git + PyTorch(带 CUDA 支持)
进阶训练配置
- Empfohlene Grafikkarten:RTX 3090(24GB)及以上
- VGA-Speicherbedarf::
- stage1.yaml 配置:23GB
- stage2_efficient.yaml 配置:20GB(最优性价比)
- 完整 stage2.yaml:30GB(专业用户)
- Speicherplatz:需预留 10GB+ 空间存放模型和训练数据
*注:实际需求会随视频分辨率(默认 256×256)和处理时长变化
Diese Antwort stammt aus dem ArtikelLatentSync: ein Open-Source-Tool zur Erzeugung von lippensynchronem Video direkt aus AudioDie