Audio-Reasoner概述
Audio-Reasoner是由清华大学团队开发的开源大型语言模型项目,专注于音频内容的深度推理。该模型基于Qwen2-Audio-Instruct架构,通过引入结构化的链式思维技术(Chain-of-Thought, CoT)实现复杂的音频分析能力。
Principais recursos
- 支持声音、音乐、语音等多种音频类型的处理和分析
- 具备多模态任务能力,可结合音频与文本输入进行跨模态推理
- 创新性地使用结构化推理框架,包含<THINK>和<RESPONSE>输出模式
- 在MMAU-mini和AIR-Bench-Chat基准测试中表现出色,性能提升显著
Essa resposta foi extraída do artigoAudio-Reasoner: um modelo de linguagem em grande escala que oferece suporte ao raciocínio profundo de áudioO