マルチソースオーディオ入力に対応
vosk-browserは、リアルタイムのマイク入力と録音済みのファイル処理モードの両方をサポートできる、統一されたオーディオ処理パイプラインで設計されています。システムはWeb Audio APIを通じて完全なオーディオ処理リンクを構築し、異なるソースからのオーディオデータが正しく認識されるようにします。
- マイクの処理:navigator.mediaDevices.getUserMedia経由でオーディオストリームを取得する。
- ファイル処理:WAV/MP3などの一般的なフォーマットをサポートし、認識に必要な16kHzに自動的にリサンプリング。
- データフロー: AudioContextを使った処理ノードの作成、Transfererを使ったデータ転送の最適化
テストによると、システムは字幕生成シナリオで5%以下のエラー率で、最大2時間まで音声ファイルを安定して処理できる。ノイズの多い環境では、ノイズ抑制パラメータを設定することで、認識精度を15%向上させることができる。
この答えは記事から得たものである。Vosk-Browser:ブラウザ上で動作する音声認識ツールについて