Processamento compatível de entradas de áudio de várias fontes
O vosk-browser foi projetado com um pipeline de processamento de áudio unificado que pode suportar tanto a entrada de microfone em tempo real quanto os modos de processamento de arquivos pré-gravados. O sistema cria um link de processamento de áudio completo por meio da API de áudio da Web para garantir que os dados de áudio de diferentes fontes sejam reconhecidos corretamente.
- Manuseio do microfone: obtenha fluxo de áudio por meio de navigator.mediaDevices.getUserMedia
- Processamento de arquivos: suporta formatos comuns, como WAV/MP3, reamostragem automática para os 16kHz necessários para o reconhecimento.
- Fluxo de dados: criar nós de processamento usando AudioContext, otimizar a transferência de dados via Transferer
Os testes mostram que o sistema pode processar arquivos de áudio de forma estável por até 2 horas, com uma taxa de erro inferior a 5% em cenários de geração de legendas. Em ambientes ruidosos, a precisão do reconhecimento pode ser melhorada em 15% configurando-se o parâmetro de supressão de ruído.
Essa resposta foi extraída do artigoVosk-Browser: ferramenta de reconhecimento de fala executada em um navegadorO




























