Avanços no desempenho da síntese de fala em tempo real
Para cenários de aplicativos interativos, a CosyVoice propõe de forma inovadora uma arquitetura de síntese de streaming baseada em Chunk-Streaming, que atinge uma latência de primeiro pacote de 150 ms por meio de três tecnologias principais:
- Agrupamento dinâmicoGeração incremental de quadros de fala de 20 ms
- Otimização de memóriaGerenciamento de janelas deslizantes para o KV-Cache
- aceleração de hardwareIntegração do mecanismo de inferência TensorRT-LLM
Os testes realizados no ambiente de hardware NVIDIA T4 mostram que, ao processar textos mistos em chinês e inglês, o modo de streaming economiza 68% de consumo de memória do que as soluções tradicionais sem streaming, garantindo a continuidade da rima. Na implementação real, essa tecnologia suportou milhões de solicitações inteligentes de saída por dia com uma taxa de erro inferior a 0,3%. Os desenvolvedores podem ativar esse modo definindo o parâmetro stream=True.
Essa resposta foi extraída do artigoCosyVoice: ferramenta de geração e clonagem multilíngue de código aberto AliO