SongGen集成了先进的声纹编码技术,仅需3秒参考音频就能提取说话人的音色特征。该功能的技术实现包含两个关键环节:
- 声纹提取:使用ECAPA-TDNN模型提取说话人嵌入向量
- 特征融合:将声纹特征与音乐内容表征在潜在空间对齐
实际应用中,用户可选择是否分离参考音频中的人声轨道。当separate参数设为True时,系统会先进行音源分离处理,确保克隆的声纹特征纯净度。
这项技术让用户可以用自己喜欢的声音演唱生成歌曲,大大增强了创作的个性化程度。
本答案来源于文章《SongGen:自动生成歌曲的单阶段自回归Transformer》