Magenta RT提供灵活的多模态输入功能,用户既可以输入文字提示(如”轻快爵士”),也可以上传音频片段作为生成基础。更强大的是,它能通过调整权重将文字和音频提示混合使用,例如”50% jazz + 50% input audio”。这种混合输入方式允许创作者精确控制音乐风格和节奏,为音乐创作提供了更高的可控性和创造性。
模型生成的结果是48kHz立体声音频,可作为灵感片段使用,也可平滑衔接前10秒音频上下文(使用跨淡化技术减少边界失真)。输出支持实时播放或保存为WAV文件。
本答案来源于文章《Magenta RealTime:实时生成音乐的开源模型》