Posição atual:fig. início " Respostas da IA

O sistema de interação por voz permite a reprodução imersiva de papéis em vários idiomas

2025-08-25

2.8 K

O PolyBuzz integra a mais recente tecnologia de síntese de fala neural e seu sistema de interação de voz apresenta três grandes avanços tecnológicos: primeiro, o mapeamento de emoções em tempo real, que combina automaticamente 28 tipos de expressões de voz ao analisar o valor emocional do texto; segundo, o recurso de mistura de vários idiomas, que permite que o personagem mantenha as características de sotaque nativo ao usar o idioma principal; e terceiro, a resposta consciente do contexto, que ajusta automaticamente a velocidade da fala e as pausas de acordo com a cena durante o diálogo. . Os dados de teste mostram que a latência de voz do sistema é controlada em 800 ms, com uma precisão de reconhecimento de emoção de 92%. Os cenários típicos de aplicação incluem alunos de japonês conversando com um tutor de IA com sotaque de Kansai ou fãs de Game of Thrones tendo uma conversa cortês com o personagem da "Mãe dos Dragões" em chinês e inglês. Os 11 estilos de voz integrados do sistema podem ser usados para tudo, desde personagens de desenhos animados até narradores de documentários.

Essa resposta foi extraída do artigoPolyBuzz: uma plataforma gratuita de bate-papo e interpretação de papéis para interagir com personagens de IAO

Não pode ser reproduzido sem permissão:Ferramentas de produtividade de IA " O sistema de interação por voz permite a reprodução imersiva de papéis em vários idiomas