O Qwen-TTS foi desenvolvido pela equipe da Qwen na Alibaba Cloud, e sua tecnologia principal se baseia no treinamento de um conjunto de dados de fala em grande escala. O conjunto de dados abrange vários idiomas e dialetos, garantindo que a fala gerada seja altamente natural e fluente. O sistema usa algoritmos de aprendizagem profunda para otimizar automaticamente a entonação, a velocidade da fala e a expressão emocional, de modo que o resultado seja próximo da pronúncia de uma pessoa real. Os dados de treinamento típicos incluem dezenas de milhares de horas de mandarim, inglês e três dialetos chineses (Pequim/Shanghai/Sichuan), e tecnologias avançadas de vocodificador, como a WaveNet, são usadas para obter uma modelagem fina no nível da forma de onda.
Em termos de implementação técnica, o Qwen-TTS adota uma arquitetura de rede neural de ponta a ponta, combinada com um mecanismo de atenção para analisar dinamicamente os recursos de texto. Por exemplo, ao processar palavras dialetais, como "今儿个", o modelo acionará automaticamente a base de regras vocais correspondente. Em comparação com o TTS com emenda tradicional, sua taxa de erro de rima é reduzida em 62%, e sua MOS (Mean Opinion Score) atinge 4,3 (em uma escala de 5 pontos). Esse desempenho de qualidade o torna um dos sistemas TTS mais próximos da pronúncia de pessoas reais em chinês.
Essa resposta foi extraída do artigoQwen-TTS: uma ferramenta de síntese de fala com dialeto chinês e suporte bilíngueO































