O Qwen-TTS adota uma arquitetura de serviço totalmente baseada em nuvem para fornecer uma solução completa de síntese de fala por meio da API do Qwen. A arquitetura foi projetada com três camadas de componentes principais: o gateway de API de front-end lida com a autenticação e o controle de tráfego (contando com a autenticação DASHSCOPE_API_KEY), o mecanismo de inferência de middle-end executa 10 bilhões de modelos TTS paramétricos e o back-end se conecta a um cluster de renderização de áudio distribuído. Essa arquitetura elimina a necessidade de os desenvolvedores implantarem modelos locais e permite que eles obtenham recursos de síntese de fala de nível profissional chamando interfaces simples em linguagens como Python.
Os documentos técnicos mostram que o controle típico de latência da chamada de API está dentro de 800 ms, com suporte para solicitações simultâneas de até 5000 QPS. Por exemplo, o código de amostra no método SpeechSynthesizer.call, o usuário só precisa especificar os parâmetros de texto e voz para obter o URL de áudio. O sistema conclui automaticamente a normalização do texto, a previsão de rima, a geração da forma de onda e outros processos. O formato de saída suporta arquivos WAV com qualidade de transmissão de 16 bits/44,1 kHz. Esse método de acesso leve é especialmente adequado para a rápida iteração de cenários de aplicativos da Internet.
Essa resposta foi extraída do artigoQwen-TTS: uma ferramenta de síntese de fala com dialeto chinês e suporte bilíngueO































