Um programa de três fases para otimização móvel
As seguintes estratégias de otimização podem ser implementadas para as características dos dispositivos móveis:
- Otimização do estágio de carga::
- Pré-carregamento de arquivos de modelo de 300 MB usando o Service Worker
- Modelos baixados armazenados em cache usando o IndexedDB - otimização em tempo de execução::
- Forçar um backend WASM para evitar problemas de compatibilidade com WebGPU:
"`javascript
dispositivo: 'wasm'
“`
- Habilitar o formato de quantificação q4f16 para reduzir o espaço de memória - Otimização de saída::
- Taxa de amostragem reduzida para 16kHz (é necessário reamostragem)
- Substituição do formato WAV pela codificação opus
- Saída de streaming para evitar o acúmulo de memória de áudio longa
Os dados de medição mostram que, após a otimização, o consumo de memória dos dispositivos móveis pode ser reduzido em 60%, e o tempo da primeira resposta é reduzido em 40%.
Essa resposta foi extraída do artigoKokoro WebGPU: um serviço de conversão de texto em fala para operação off-line em navegadoresO































