O PolyBuzz integra a mais recente tecnologia de síntese de fala neural e seu sistema de interação de voz apresenta três grandes avanços tecnológicos: primeiro, o mapeamento de emoções em tempo real, que combina automaticamente 28 tipos de expressões de voz ao analisar o valor emocional do texto; segundo, o recurso de mistura de vários idiomas, que permite que o personagem mantenha as características de sotaque nativo ao usar o idioma principal; e terceiro, a resposta consciente do contexto, que ajusta automaticamente a velocidade da fala e as pausas de acordo com a cena durante o diálogo. . Os dados de teste mostram que a latência de voz do sistema é controlada em 800 ms, com uma precisão de reconhecimento de emoção de 92%. Os cenários típicos de aplicação incluem alunos de japonês conversando com um tutor de IA com sotaque de Kansai ou fãs de Game of Thrones tendo uma conversa cortês com o personagem da "Mãe dos Dragões" em chinês e inglês. Os 11 estilos de voz integrados do sistema podem ser usados para tudo, desde personagens de desenhos animados até narradores de documentários.
Essa resposta foi extraída do artigoPolyBuzz: uma plataforma gratuita de bate-papo e interpretação de papéis para interagir com personagens de IAO