Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito
Posição atual:fig. início " Respostas da IA

A tecnologia de síntese de streaming da CosyVoice atinge 150 ms de latência do primeiro pacote

2025-08-23 742
Link diretoVisualização móvel
qrcode

Avanços no desempenho da síntese de fala em tempo real

Para cenários de aplicativos interativos, a CosyVoice propõe de forma inovadora uma arquitetura de síntese de streaming baseada em Chunk-Streaming, que atinge uma latência de primeiro pacote de 150 ms por meio de três tecnologias principais:

  1. Agrupamento dinâmicoGeração incremental de quadros de fala de 20 ms
  2. Otimização de memóriaGerenciamento de janelas deslizantes para o KV-Cache
  3. aceleração de hardwareIntegração do mecanismo de inferência TensorRT-LLM

Os testes realizados no ambiente de hardware NVIDIA T4 mostram que, ao processar textos mistos em chinês e inglês, o modo de streaming economiza 68% de consumo de memória do que as soluções tradicionais sem streaming, garantindo a continuidade da rima. Na implementação real, essa tecnologia suportou milhões de solicitações inteligentes de saída por dia com uma taxa de erro inferior a 0,3%. Os desenvolvedores podem ativar esse modo definindo o parâmetro stream=True.

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo

pt_BRPortuguês do Brasil