O CosyVoice 2.0 foi otimizado e atualizado em vários aspectos:
- Aprimoramento da precisão da pronúnciaErros de pronúncia significativamente reduzidos 30%-50% e maior clareza na síntese da fala
- aprimoramento do tomArquitetura de modelo aprimorada usando algoritmos de otimização para melhorar sua pontuação MOS (Mean Opinion Score) de 5,4 para 5,53
- Aprimoramento da naturalidade rítmicaEntonação e ritmo de fala aprimorados, tornando a fala gerada mais natural e fluente
- <strong]Otimização de atrasoAtraso do primeiro pacote tão baixo quanto 150 ms sob síntese de streaming, mais adequado para cenários de interação em tempo real
- <strong]Simplificação do modeloRedução da complexidade computacional por meio de otimizações arquitetônicas, permitindo uma execução mais eficiente e mantendo a alta qualidade
Esses aprimoramentos permitem que o CosyVoice 2.0 atinja uma qualidade de síntese de fala próxima ao nível comercial para cenários de aplicativos exigentes, como assistentes de voz e criação de conteúdo.
Essa resposta foi extraída do artigoCosyVoice: ferramenta de geração e clonagem multilíngue de código aberto AliO