O desafio técnico
As interações em tempo real exigem que a latência do primeiro pacote seja inferior a 200 ms, e os modelos TTS comuns geralmente têm uma latência de 500 ms ou mais.
Programa de otimização
- Ativar o modo de síntese de streaming: Configurações
stream=True
Parâmetros:cosyvoice.inference_zero_shot(..., stream=True)
- Modelagem e quantificaçãoAtivado ao carregar modelos
fp16=True
responder cantandoload_trt=True
Implementação da aceleração do TensorRT - Seleção de hardwarePlacas de vídeo NVIDIA T4 e superiores recomendadas, ambiente CUDA 11.7+
Ajuste de desempenho
1. monitoramentofirst_chunk_latency
Indicador, o normal deve ser ≤ 150ms
2) Para dispositivos de borda, oCosyVoice-300M
Versão leve do modelo
3. aquecimento do pipeline de raciocínio para evitar atrasos na inicialização a frio
aplicação típica
A solução foi aplicada com sucesso a cenários de interação em tempo real, como atendimento inteligente ao cliente, óculos de AR etc., com o atraso médio de ponta a ponta controlado em 300 ms.
Essa resposta foi extraída do artigoCosyVoice: ferramenta de geração e clonagem multilíngue de código aberto AliO