Etapas de integração no lado do navegador
Para implementar a síntese de fala baseada em WebGPU, é necessário seguir o seguinte caminho técnico:
- Preparação ambientalVerifique se você usa um navegador habilitado para WebGPU, como o Chrome 113+ ou o Edge 113+
- Instalação das bibliotecas principais: obtenha a versão mais recente do kokoro-js via npm
npm install kokoro-js
Implementação do código principal
Um processo de realização típico consiste em três estágios principais:
- Carregamento do modeloEspecifique o uso de um backend webgpu e parâmetros quantitativos para otimização (por exemplo, q8)
const tts = await KokoroTTS.from_pretrained(model_id, {
dtype: 'fp32', device: 'webgpu'
}); - Personalização de voz: selecione tons diferentes (por exemplo, af_heart) por meio de tts.list_voices()
- Processamento de resultadosO áudio WAV gerado pode ser reproduzido instantaneamente ou salvo por meio de audio.save().
melhores práticas
Recomenda-se usar a precisão fp32 no modo WebGPU para obter a melhor qualidade de som e observar a otimização do tempo de carregamento do modelo de mais de 300 MB
Essa resposta foi extraída do artigoKokoro WebGPU: um serviço de conversão de texto em fala para operação off-line em navegadoresO































