Cinco técnicas principais para a geração de fala naturalizada
Para o problema do sentido mecânico da dublagem de IA, a Xunfei Intelligent Work oferece soluções de nível profissional:
| Tipo de problema | cura | Recomendações de parâmetros |
|---|---|---|
| falta de sincronização | Uso da função "Rhyme Marker" (Marcador de rima) - Acréscimo de sinais de ênfase ao vocabulário principal - As terminações interrogativas são estabelecidas de maneira ascendente |
Valores de flutuação de tom sugeridos 60-80% |
| falta de falta de ar | - Inserção de 0,2 segundos de intervalos de ar a cada 120 palavras - Ativar a opção "som de respiração natural" |
Volume de respiração para 151 TP3T. |
| emocionalmente deficiente | - Selecione o tipo de âncora "Emocionalmente Intensivo - Inserir rótulos de emoticons, como [smiley][serious], no texto |
Recomendação de intensidade emocional 40% |
Programas de ordem superior:
1. segmentação do texto de acordo com o humor e dublagem cruzada com diferentes vozes de âncora
2. adicionar o som ambiente de fundo 5%-10% (por exemplo, ruído branco de cafeteria)
3. redução de micro-ruído após a saída usando um software como o AU (mantendo a faixa de 200-5000 Hz)
Essa resposta foi extraída do artigoCyberSmart: conversão de texto em fala e vídeo humano digitalO































