Desafio especial de TTS chinês
O chinês tem regras de pronúncia complexas, como caracteres polifônicos e sons pediátricos. Embora o suporte ao idioma chinês na versão atual ainda esteja sendo refinado, as seguintes soluções podem ser usadas para melhorar a precisão:
prescrição
- Pré-processamento de texto: Integração
pypinyinRotulagem obrigatória de caracteres polifônicos na biblioteca (por exemplo, 'bank' → yin hang) - esquema de rimaInserção de tags SSML para controlar as pausas no texto de entrada (
<break time="200ms"/>) - Treinamento em privatizaçãoUso de kits de ferramentas de código aberto
chinese-tts-finetuneAjuste fino do modelo ONNX - correção pós-processamento: através de
FFmpeg(usado em uma expressão nominal)atempoAjuste do filtro Clipe de taxa de fala anormal
Programa alternativo provisório
Se você precisar urgentemente de um TTS chinês de nível de produção, recomendamos que 1) aguarde o modelo chinês oficial v1.0 2) use-o em combinação.Bert-VITS2Realizar análise de texto de front-end 3) Interface com a API AliCloud/Xunfei para fallback
Essa resposta foi extraída do artigoKokoro-ONNX: ferramenta eficiente de conversão de texto em fala com suporte a vários idiomas e várias vozesO































