O modelo de grande porte EVA-1 desenvolvido pela Boundless Ark adota uma arquitetura multimodal de ponta a ponta que pode processar simultaneamente fluxos de dados de texto, imagem e áudio. O modelo atingiu um nível de desempenho comparável ao do GPT-4o em vários testes internacionais de benchmark, e seus principais avanços tecnológicos estão refletidos em três aspectos: primeiro, a fusão de informações multimodais é obtida por meio de uma arquitetura de rede neural unificada, evitando a perda de desempenho causada pela emenda de vários modelos no esquema tradicional; segundo, o atraso da interação de voz é controlado em 400 milissegundos, oferecendo suporte à resposta de interrupção em tempo real em conversas naturais; por último, o mecanismo de reconhecimento de emoções integrado pode analisar os fluxos de dados multimodais. Por fim, o mecanismo integrado de reconhecimento de emoções pode analisar os recursos emocionais na voz do usuário e obter feedback antropomórfico por meio da simulação da expressão facial (para o robô Arki) ou do ajuste do tom de voz. Os cenários típicos de aplicação incluem a interação emocional com os robôs Arki e a geração de relatórios profissionais com base na coanálise de imagens e textos na plataforma AgentStudio.
Essa resposta foi extraída do artigoAutoArk: uma plataforma de IA multiinteligência para colaboração em tarefas complexasO