Soluções de otimização de latência para legendagem em tempo real
Para o problema de latência da cena de legendagem em tempo real, a saída de baixa latência de 100 a 200 ms pode ser obtida com as seguintes soluções técnicas:
- Otimização de transporte em pedaços: Ajustes
createTransferertamanho do bloco (padrão 128*150), altere para 64*50 para obter uma segmentação mais rápida: oVosk.createTransferer(ctx, 64 * 50) - estratégia de buffer duploIniciar dois WebWorkers para processar em paralelo, recebendo dados de áudio alternadamente para evitar lacunas no processamento
- Priorização parcial dos resultadosEscuta focalizada
partialResultevento, combinado com o resultado final para obter uma transição suave: olet lastPartial = '' recognizer.addEventListener('partialResult', (ev) => { lastPartial = ev.detail.text; updateCaption(lastPartial); })
Dicas avançadas:1) Use a versão otimizada para SIMD do WebAssembly 2) Ative as APIs de áudio da Web do navegadorAudioWorkletO Alternative ScriptProcessorNode 3) implementa a previsão de blocos semânticos para passagens longas. Esses métodos foram testados para manter os atrasos de ponta a ponta dentro da sincronização de quadros de vídeo (<16 ms).
Essa resposta foi extraída do artigoVosk-Browser: ferramenta de reconhecimento de fala executada em um navegadorO































