A função central de clonagem de fala do CSM Voice Cloning não é capaz de reproduzir perfeitamente a voz original, mas pode reter com eficiência os principais recursos da fonte sonora de destino. Em termos de implementação técnica, o sistema analisa as amostras de áudio de 2 a 3 minutos recebidas para extrair os principais recursos, como frequência, timbre e ritmo da voz, e depois gera uma nova voz combinando o recurso de conversão de texto em fala do modelo CSM-1B.
O efeito do uso é mostrado em:
- A fala gerada tem as características tonais do falante original
- Reflete os ritmos únicos e os hábitos de pronúncia de cada falante
- Melhor para amostras claras e sem ruídos
- Melhores resultados podem ser obtidos por meio de tentativas repetidas e ajustes de parâmetros.
Em comparação com as soluções de clonagem comerciais de nível profissional, há uma lacuna em sua eficácia, mas, como ferramenta de código aberto, ela já pode atender aos requisitos básicos do aplicativo.
Essa resposta foi extraída do artigoClonagem de voz CSM: clonagem rápida de voz com o CSM-1BO































