Implementação técnica da clonagem eficiente de tons
A principal inovação tecnológica do CosyVoice é romper a limitação de que a clonagem de fala tradicional requer vários minutos de treinamento de amostras e realizar a extração de recursos e a generalização de falas curtas de 3 segundos por meio de uma estrutura de aprendizado contrastivo. O sistema adota a estrutura VAE (Variable Auto-Encoder) para codificar de 1 a 3 segundos de áudio de referência em vetores de timbre de 128 dimensões, juntamente com o mecanismo de atenção para obter a dissociação e a reestruturação dos recursos de timbre. Testes práticos mostram que é possível obter uma similaridade de timbre de 97% usando amostras de 15 segundos, e há suporte para a preservação de timbre em vários idiomas. O desenvolvedor pode realizar essa função por meio de chamadas de API simples:
cosyvoice.inference_zero_shot( text=, prompt_text=, prompt_speech=)
A tecnologia foi validada em áreas como atendimento inteligente ao cliente e ídolos virtuais, e tem uma clara vantagem na fidelidade do tom chinês em comparação com soluções comerciais como o Resemble.AI.
Essa resposta foi extraída do artigoCosyVoice: ferramenta de geração e clonagem multilíngue de código aberto AliO