针对显存不足的硬件环境,可采用以下优化方案:
- 启用LoRA模式:在推理时添加
--use_lora参数,能减少约40%显存占用,虽会轻微降低音质但保持可用性 - 分块生成:将长文本分割为多段(每段≤240秒),通过
--chunk_size参数控制,分批次生成后拼接 - 量化推理:加载模型时使用
model.half()开启FP16精度,或尝试4-bit量化(需修改finetune.py中的加载方式) - CPU卸载技术:对于>6GB显存的GPU,可设置
--offload_to_cpu将部分层临时卸载到内存
本答案来源于文章《MOSS-TTSD:开源的双语对话语音生成工具》




























