A Xunfei Zhizuo é uma plataforma de criação de conteúdo de IA desenvolvida pela Xunfei of Science and Technology, e sua principal função é converter texto em voz natural e suave (dublagem de IA) por meio da tecnologia de síntese de fala e, posteriormente, combiná-la com a tecnologia humana digital para gerar vídeos de âncoras virtuais. O processo de realização da conversão de texto em fala é dividido principalmente em cinco etapas:
- entrada de textoSuporte à entrada direta ou à importação de documentos no formato .txt/.docx.
- Seleção de âncorasA plataforma oferece centenas de vozes de IA (notícias/publicidade/ficção, etc.) em uma variedade de estilos, que podem ser filtrados por idioma/gênero/estilo.
- parametrizaçãoAjuste fino da velocidade/tom da fala, inserção de pausas, correção de polifonia e pronúncia do inglês
- Colaboração entre várias âncorasSuporte para atribuir diferentes vozes a diferentes passagens de texto, adequado para cenários de diálogo
- Síntese de música de fundoAdicionar bibliotecas de música da plataforma ou áudio personalizado para ajustar a proporção entre os vocais e o volume de fundo.
O arquivo de voz final gerado permite a exportação para .mp3 e outros formatos, e todo o processo é feito na nuvem, sem equipamento de áudio profissional.
Essa resposta foi extraída do artigoCyberSmart: conversão de texto em fala e vídeo humano digitalO