Os atrasos no reconhecimento geralmente são causados por três fatores:
- Fase de carregamento do modeloModelos grandes (por exemplo, modelos franceses de 300 MB) demoram mais para serem baixados e descompactados
- desempenho do hardware: Os cálculos do WebAssembly podem ser mais lentos em dispositivos de baixo custo.
- Configurações do buffer de áudioTamanho do buffer do createTransferer (padrão 128*150): afeta a velocidade de resposta
Programa de otimização::
- Estratégia de carregamento:
- Pré-carregamento de modelos com o Service Worker
- Seleção de modelos pequenos (por exemplo, vosk-model-small-en-us-0.15) - Ajuste de parâmetros:
- Taxa de amostragem reduzida para 16000 Hz (requer ajuste sincronizado do mod.conf)
- Redução do buffer de transmissão para 64*150 - Otimização do tempo de execução:
- Habilitar a aceleração WebGL (requer alterações no mfcc.conf)
- Desativar ouvintes de eventos de resultados desnecessários
Os testes mostram que a latência de reconhecimento do inglês otimizado pode ser reduzida de 1,2s para cerca de 400ms
Essa resposta foi extraída do artigoVosk-Browser: ferramenta de reconhecimento de fala executada em um navegadorO
































