Avanço tecnológico na clonagem de fala com amostra zero
O Orpheus-TTS alcança uma verdadeira capacidade de clonagem de fala de amostra zero, o que representa um importante avanço tecnológico no campo do TTS.
Os três principais recursos técnicos dessa função:
- Clonagem de tons em apenas 10 a 30 segundos de áudio de referência
- Não há necessidade de nenhum ajuste fino do modelo ou treinamento adicional
- Suporta processamento em lote e clonagem paralela de várias vozes
O princípio de implementação é baseado em:
- Extração de representação de fala para aprendizado autossupervisionado
- Técnicas de desacoplamento de tons e recombinação de recursos
- Redes Gerativas Adversárias (GAN) para Transformação de Som
As métricas de desempenho são exibidas:
- Os clones de fala em inglês são semelhantes até o 90%
- Similaridade do clone de fala chinesa 85%
- Atraso de processamento controlado em 300 ms
Recomenda-se que os melhores resultados de clonagem sejam obtidos com o uso de um modelo pré-treinado (canopylabs/orpheus-tts-0.1-pretrained).
Essa resposta foi extraída do artigoOrpheus-TTS: uma ferramenta de conversão de texto em fala para gerar fala natural em chinêsO
































