Posição atual:fig. início " Respostas da IA

O CSM Voice Cloning mantém as características reconhecíveis da voz de destino.

2025-08-29

1.5 K

A função central de clonagem de fala do CSM Voice Cloning não é capaz de reproduzir perfeitamente a voz original, mas pode reter com eficiência os principais recursos da fonte sonora de destino. Em termos de implementação técnica, o sistema analisa as amostras de áudio de 2 a 3 minutos recebidas para extrair os principais recursos, como frequência, timbre e ritmo da voz, e depois gera uma nova voz combinando o recurso de conversão de texto em fala do modelo CSM-1B.

O efeito do uso é mostrado em:

A fala gerada tem as características tonais do falante original
Reflete os ritmos únicos e os hábitos de pronúncia de cada falante
Melhor para amostras claras e sem ruídos
Melhores resultados podem ser obtidos por meio de tentativas repetidas e ajustes de parâmetros.

Em comparação com as soluções de clonagem comerciais de nível profissional, há uma lacuna em sua eficácia, mas, como ferramenta de código aberto, ela já pode atender aos requisitos básicos do aplicativo.

Essa resposta foi extraída do artigoClonagem de voz CSM: clonagem rápida de voz com o CSM-1BO

Não pode ser reproduzido sem permissão:Ferramentas de produtividade de IA " O CSM Voice Cloning mantém as características reconhecíveis da voz de destino.