O principal avanço tecnológico do projeto está na construção de um pipeline de processamento de áudio em vários estágios:
- Camada de extração de recursos: 128 espectros de Wimmer são extraídos usando o codificador Whisper-small.
- Modelagem de difusão: arquitetura DiT baseada em seed-uvit para transformação de espaço latente (<li) Codificador de voz: BigVGAN garante a reconstrução de áudio HD de 44kHz.
Os dados de teste mostram que a solução combinada alcança uma pontuação CMOS de 3,8 no conjunto de testes VCTK, uma melhoria de 21% em comparação com a solução AutoVC tradicional, e o uso inovador do projeto do número de etapas de difusão como um parâmetro ajustável (4-50 etapas) permite que os usuários façam suas próprias compensações entre o desempenho em tempo real e a qualidade do som.
Essa resposta foi extraída do artigoSeed-VC: suporta a conversão em tempo real de fala e música com menos amostrasO































