O CosyVoice é um modelo de geração de fala multilíngue de código aberto da Ali, com foco na tecnologia de conversão de texto em fala (TTS) de alta qualidade. Seus principais recursos incluem:
- Geração de fala com amostragem zeroGeração de fala semelhante à voz alvo com base em amostras curtas de áudio sem treinamento adicional.
- síntese de fala em vários idiomasSuporte à geração de fala multilíngue, mantendo a consistência tonal.
- Controle emocional minuciosoEtiquetas de expressão emocional, como risos e pausas, podem ser adicionadas para gerar uma fala mais natural.
- Ajuste de dialeto e sotaqueSuporte para geração de fala em dialetos ou sotaques específicos, como o sichuanês.
- Síntese de fala em fluxo contínuoRecurso de baixa latência com atraso do primeiro pacote de até 150 ms.
A principal vantagem dessa ferramenta é sua saída de alta qualidade de som, com uma pontuação MOS de 5,53 próxima ao nível comercial, bem como uma redução significativa no erro de articulação do 30%-50% em comparação com a versão anterior.
Essa resposta foi extraída do artigoCosyVoice: ferramenta de geração e clonagem multilíngue de código aberto AliO