Principais maneiras de reduzir a latência de conversão em tempo real
O seguinte esquema de otimização em três etapas pode ser adotado para atender à alta demanda de desempenho em tempo real em cenários de transmissão ao vivo:
- Otimização da configuração de hardware::
Recomenda-se usar GPUs NVIDIA RTX 3060 e superiores, que podem controlar a latência em 430 milissegundos, conforme medido. Se estiver sendo executado em uma CPU, é recomendável escolher um processador de vários núcleos (por exemplo, i7/i9) e fechar outros programas que consomem muitos recursos. - Estratégia de ajuste de parâmetros::
1. defina as etapas de difusão como 4-10 na interface real-time-gui.py.
2. defina o tempo de bloqueio como 0,18 segundos
3. habilite os cálculos de meia precisão fp16 (adicione o parâmetro -fp16 True) - Otimização em nível de sistema::
1. crie canais de áudio virtuais por meio do VB-CABLE para reduzir a latência do dispositivo físico
2) Defina o modo de energia como "Desempenho máximo" no painel de controle da NVIDIA.
3. use o driver de áudio de baixa latência ASIO em vez do driver padrão da placa de som
Se isso ainda não atender à demanda, você poderá mudar para o modelo especializado seed-uvit-tat-xlsr-tiny (parâmetro 25M), que reduz a latência em mais ~30% em comparação com o modelo básico.
Essa resposta foi extraída do artigoSeed-VC: suporta a conversão em tempo real de fala e música com menos amostrasO































