要解决人声与伴奏不协调的问题,可以通过以下步骤优化:
- 使用多轨输出功能:在生成命令中添加
--separate_tracks
参数,分别生成独立的人声和伴奏轨道,便于后期调整平衡 - 精确控制风格描述:在JSONL文件中确保
descriptions
字段包含匹配的节奏描述(如the bpm is 125
)和乐器组合 - 检查歌词分段:严格按
[verse]
/[chorus]
等结构标注歌词,非歌词段落(如[intro-short]
)不应包含文字内容 - 参考音频优化:上传10秒包含完整人声与伴奏的参考片段(建议副歌部分),模型会更好地协调两者关系
本答案来源于文章《SongGeneration:生成高品质音乐和歌词的开源AI模型》