Audio-Reasoner团队即将发布的CoTA数据集具有三大核心价值:1)规模达120万样本,覆盖音乐、语音、环境声等多样化场景;2)每个样本包含原始音频和结构化标注(含推理过程);3)专门针对链式思维训练优化。该数据集采用创新的合成流程生成,样本质量经人工审核,在MMA基准测试中使模型性能提升19%。开发者可通过该数据集:1)微调现有音频模型;2)评估模型推理能力;3)研究多模态对齐技术。项目承诺未来将开放数据生成代码。
本答案来源于文章《Audio-Reasoner:支持音频深度推理的大型语言模型》