Em comparação com os modelos de áudio tradicionais, a inovação do Audio-Reasoner está em sua poderosa capacidade de compreensão multimodal: 1) suporta o processamento conjunto de entradas de áudio e texto para realizar a tradução de áudio-texto e o alinhamento semântico; 2) a arquitetura Transformer integrada pode codificar diferentes recursos modais simultaneamente; 3) fornece uma interface de raciocínio multimodal de ponta a ponta. As medições demonstram que o modelo pode concluir com precisão tarefas complexas, como julgar a correspondência entre o clima da música e a descrição do texto, com uma precisão de 92,3% na tarefa de alinhamento de áudio e texto. O código de treinamento do projeto, que em breve terá seu código aberto, permite que os desenvolvedores personalizem os recursos multimodais para cenários específicos (por exemplo, atendimento inteligente ao cliente, auditoria de conteúdo).
Essa resposta foi extraída do artigoAudio-Reasoner: um modelo de linguagem em grande escala que oferece suporte ao raciocínio profundo de áudioO