Práticas técnicas para síntese de fala dialetal
O CosyVoice implementa a síntese de fala dialetal por meio de uma estrutura de aprendizado multitarefa, e seu modelo 300M-SFT é otimizado especificamente para dialetos como Sichuan e Cantonês, usando três tecnologias principais:
- expansão de fonemasBiblioteca de fonemas específicos do dialeto, abrangendo 951 recursos articulatórios doTP3T
- Modelagem rítmicaPrevisão de entonação dialetal baseada em LSTM
- Aprimoramento de dados100.000 horas de corpus paralelo dialeto-mandarim
No exemplo, o desenvolvedor só precisa passar o comando "diga esta frase em Sichuan", e o sistema mudará automaticamente para o modo dialeto. Os testes mostram que o MOS de naturalidade da síntese do dialeto de Sichuan atinge 4,8 pontos, com uma precisão de fonema de 921 TP3 T. Essa tecnologia foi usada para gerar avisos de navegação localizados a um custo 851 TP3 T menor do que as soluções tradicionais de gravação de dialeto.
Essa resposta foi extraída do artigoCosyVoice: ferramenta de geração e clonagem multilíngue de código aberto AliO