SongGen的创新控制体系允许用户通过自然语言精确指导音乐生成过程。关键控制维度包括:
- 歌词内容:直接输入文本歌词,模型自动匹配音节和旋律
- 乐器配置:通过描述指定使用的乐器和声部组合
- 风格类型:支持流行、摇滚、古典等20余种音乐风格的定义
- 情感表达:欢快、忧郁等情感参数影响和声进行和节奏型
- 音色特征:可调整人声和乐器的频谱特性
这种多维控制体系基于CLAP等音频理解模型的语义对齐技术,实现文本描述到音乐特征的准确映射。
本答案来源于文章《SongGen:自动生成歌曲的单阶段自回归Transformer》