Posição atual:fig. início " Respostas da IA

O recurso de clonagem de fala gera uma fala semelhante com apenas 10 segundos de áudio de referência

2025-08-23

1.1 K

Tecnologia de ponta para clonagem de fala

O sistema de clonagem de fala da Kyutai demonstra recursos inovadores de aprendizado sem amostras. Sua tecnologia principal é um codificador de impressão de voz baseado em rede geradora adversária, capaz de extrair os recursos de timbre, entonação e pronúncia do locutor a partir de apenas 10 segundos de áudio de referência. Esses recursos são separados do modelo de linguagem, permitindo o controle livre do conteúdo do texto e mantendo as características da fala.

O sistema emprega uma estratégia de treinamento em dois estágios: o primeiro estágio usa milhares de horas de dados de vários alto-falantes para pré-treinar um vocoder genérico; o segundo estágio faz o ajuste fino dos recursos de fala personalizados por meio da tecnologia de adaptador. As experiências mostram que a fala gerada atinge uma pontuação de 4,2 (em uma escala de 5 pontos) no teste MOS (Mean Opinion Score), e que os testadores do 85% não conseguiram distinguir entre a fala clonada e a gravação real.

Deve-se observar que o recurso ainda não é totalmente de código aberto e está disponível apenas como uma prévia de pesquisa. As autoridades dizem que a tecnologia de marca d'água está sendo desenvolvida para reconhecer a fala sintetizada por motivos éticos. Espera-se que a versão completa de código aberto inclua mecanismos adicionais de controle de segurança.

Essa resposta foi extraída do artigoKyutai: ferramenta de conversão de fala em texto em tempo realO

Não pode ser reproduzido sem permissão:Ferramentas de produtividade de IA " O recurso de clonagem de fala gera uma fala semelhante com apenas 10 segundos de áudio de referência

O recurso de clonagem de fala gera uma fala semelhante com apenas 10 segundos de áudio de referência

Tecnologia de ponta para clonagem de fala

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

O recurso de clonagem de fala gera uma fala semelhante com apenas 10 segundos de áudio de referência

Tecnologia de ponta para clonagem de fala

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Ferramenta de IA da estação de consulta rápida