Histórico
Em cenários de síntese de fala multilíngue, muitas vezes é difícil para os modelos tradicionais manter a consistência do mesmo timbre entre os idiomas, o que resulta em uma experiência de audição de fala fragmentada. O CosyVoice otimiza especificamente esse ponto problemático por meio da tecnologia de clonagem de fala entre idiomas.
Soluções essenciais
- Uso da função de geração de amostra zero: através de
inference_zero_shot
o modelo mantém as características de timbre em toda a geração de idiomas, fornecendo apenas 3 segundos de áudio de referência.from cosyvoice import CosyVoice2 cosyvoice = CosyVoice2('pretrained_models/CosyVoice2-0.5B') prompt_audio = torchaudio.load('prompt.wav')[0] cosyvoice.inference_zero_shot(text, prompt_text, prompt_audio)
- Suporte a modelos pré-treinados: use diretamente o recurso oficialmente fornecido
CosyVoice2-0.5B
que foi treinado em conjunto em um corpus multilíngue - Tecnologia de congelamento de tons: Chamada
add_zero_shot_spk
salva a assinatura do timbre, eliminando a necessidade de recarregar o áudio nas chamadas subsequentes.
advertência
Certifique-se de que o áudio de referência esteja em uma taxa de amostragem de 16 kHz e recomenda-se gravar um som claro e seco com ruído ambiente abaixo de -60 dB. Para cenas profissionais, verifique primeiro as características da frequência fundamental do áudio com uma ferramenta como o Praat.
Essa resposta foi extraída do artigoCosyVoice: ferramenta de geração e clonagem multilíngue de código aberto AliO