Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito
Posição atual:fig. início " Respostas da IA

O recurso de clonagem de fala gera uma fala semelhante com apenas 10 segundos de áudio de referência

2025-08-23 1.1 K

Tecnologia de ponta para clonagem de fala

O sistema de clonagem de fala da Kyutai demonstra recursos inovadores de aprendizado sem amostras. Sua tecnologia principal é um codificador de impressão de voz baseado em rede geradora adversária, capaz de extrair os recursos de timbre, entonação e pronúncia do locutor a partir de apenas 10 segundos de áudio de referência. Esses recursos são separados do modelo de linguagem, permitindo o controle livre do conteúdo do texto e mantendo as características da fala.

O sistema emprega uma estratégia de treinamento em dois estágios: o primeiro estágio usa milhares de horas de dados de vários alto-falantes para pré-treinar um vocoder genérico; o segundo estágio faz o ajuste fino dos recursos de fala personalizados por meio da tecnologia de adaptador. As experiências mostram que a fala gerada atinge uma pontuação de 4,2 (em uma escala de 5 pontos) no teste MOS (Mean Opinion Score), e que os testadores do 85% não conseguiram distinguir entre a fala clonada e a gravação real.

Deve-se observar que o recurso ainda não é totalmente de código aberto e está disponível apenas como uma prévia de pesquisa. As autoridades dizem que a tecnologia de marca d'água está sendo desenvolvida para reconhecer a fala sintetizada por motivos éticos. Espera-se que a versão completa de código aberto inclua mecanismos adicionais de controle de segurança.

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo