针对低配置设备的优化方案:
- 强制启用低内存模式:使用
generate_lowmem.sh
脚本替代标准脚本,可降低GPU内存需求至10GB - 禁用Flash Attention:添加
--not_use_flash_attn
参数,适用于不支持CUDA 11.8的老旧显卡 - 简化输入内容:避免同时使用参考音频和文本描述,减少模型计算复杂度
- 使用Docker镜像:官方镜像
juhayna/song-generation-levo:hf0613
已预配置优化参数,通过--network=host
可减少资源占用 - 分步生成:先生成纯音乐轨道,再单独生成人声,最后用音频工具合成
本答案来源于文章《SongGeneration:生成高品质音乐和歌词的开源AI模型》