SongGen的双轨模式将人声(vocal)和伴奏(acc)分别生成,满足专业级音乐制作需求。技术实现上,模型通过:
- 并行解码:同步生成两个独立的音频序列流
- 时长对齐:自动调整双轨长度确保同步播放
- 电平平衡:保持各轨道间的音量合理配比
这种分离式输出为混音师提供了完整的后期制作空间,可以:
- 单独调整某轨道的EQ或效果器
- 替换特定乐器声部
- 重新设计空间混响
相比之下,混合模式更适合快速内容生产场景,而双轨模式则面向专业创作流程。
本答案来源于文章《SongGen:自动生成歌曲的单阶段自回归Transformer》