Tecnologia de ponta para clonagem de fala
O sistema de clonagem de fala da Kyutai demonstra recursos inovadores de aprendizado sem amostras. Sua tecnologia principal é um codificador de impressão de voz baseado em rede geradora adversária, capaz de extrair os recursos de timbre, entonação e pronúncia do locutor a partir de apenas 10 segundos de áudio de referência. Esses recursos são separados do modelo de linguagem, permitindo o controle livre do conteúdo do texto e mantendo as características da fala.
O sistema emprega uma estratégia de treinamento em dois estágios: o primeiro estágio usa milhares de horas de dados de vários alto-falantes para pré-treinar um vocoder genérico; o segundo estágio faz o ajuste fino dos recursos de fala personalizados por meio da tecnologia de adaptador. As experiências mostram que a fala gerada atinge uma pontuação de 4,2 (em uma escala de 5 pontos) no teste MOS (Mean Opinion Score), e que os testadores do 85% não conseguiram distinguir entre a fala clonada e a gravação real.
Deve-se observar que o recurso ainda não é totalmente de código aberto e está disponível apenas como uma prévia de pesquisa. As autoridades dizem que a tecnologia de marca d'água está sendo desenvolvida para reconhecer a fala sintetizada por motivos éticos. Espera-se que a versão completa de código aberto inclua mecanismos adicionais de controle de segurança.
Essa resposta foi extraída do artigoKyutai: ferramenta de conversão de fala em texto em tempo realO































