O modo SVC do Seed-VC usa o modelo seed-uvit-whisper-base com uma taxa de amostragem de 44 kHz, que mantém o caráter melódico do canto original por meio do mecanismo de condição f0. Seus resultados de nível profissional são refletidos em:
- (<li) Pitch Hold: suporta mudança de tom e ajuste automático de F0.
(<li) Garantia de qualidade de som: clareza com qualidade de estúdio para até 50 etapas de difusão.
(<li) Migração estilística: conversão bem-sucedida de vibrato, voz aérea e outras características da técnica de canto
Os testes mostraram pontuações MOS de 4,2/5 ao converter amostras vocais amadoras em tons de cantores profissionais, e a tecnologia foi usada em demos de músicas para fornecer uma mistura de tons mais natural do que o software tradicional de correção de tom, como o Melodyne.
Essa resposta foi extraída do artigoSeed-VC: suporta a conversão em tempo real de fala e música com menos amostrasO































