Processo completo para clonagem de áudio de curta duração
No centro da implementação da clonagem de áudio de curta duração do Llasa-3B está a clonagem de áudio de curta duração:
- Extração de recursos do xcodec2Codificação de 15 segundos de áudio em uma sequência vetorial de 384 dimensões (requer uma taxa de amostragem de 16kHz)
- Geração de bootstrap de prefixoVetor de características: converte o vetor de características em um prefixo de token formatado (
<|s_[id]|>), inserido no prompt gerado - conversão de ponta a pontaO modelo aprende automaticamente os recursos vocais com base nesse prefixo para manter a consistência tonal
Principais considerações: 1) o áudio original precisa ser nítido e sem ruídos de fundo; 2) use o.unsqueeze(0).unsqueeze(0)manter as dimensões de entrada corretas; 3) os efeitos de clonagem podem ser ajustados com o ajuste dotop_p=1Otimização de parâmetros.
Essa resposta foi extraída do artigoLlasa 1~8B: um modelo de conversão de texto em fala de código aberto para geração e clonagem de fala de alta qualidadeO































