AudioX是基于扩散变换器技术的多模态音频生成工具

2025-08-26

1.2 K

AudioX是由Zeyue Tian团队开发的开源项目，其核心技术采用了先进的扩散变换器（Diffusion Transformer）架构。该架构支持跨模态的内容生成，可以从文本、视频、图片等多种输入源生成高质量的音频和音乐。与传统单一模态的音频生成系统相比，扩散变换器的优势在于能够学习跨模态的深度表征，通过层级注意力机制融合不同输入源的语义信息。论文实验数据显示，AudioX在客观音频质量指标（如PESQ和STOI）上比纯文本到音频（T2A）基线模型提升了15%-20%。多模态统一处理的特性使AudioX特别适用于需要多源信息融合的创意场景，如为视频自动配乐时能同时分析画面内容和文本提示。