识别延迟通常由以下三个因素导致:
- 模型加载阶段:大型模型(如300MB的法语模型)需要较长的下载和解压时间
- 硬件性能:低配设备执行WebAssembly计算可能较慢
- 音频缓冲设置:createTransferer的缓冲区大小(默认128*150)会影响响应速度
最適化プログラム::
- 加载策略:
– 使用Service Worker预加载模型
– 选择小型模型(如vosk-model-small-en-us-0.15) - パラメータ調整:
– 降低采样率到16000Hz(需同步调整model.conf)
– 减小传输缓冲区至64*150 - 运行时优化:
– 启用WebGL加速(需修改mfcc.conf)
– 关闭不必要的结果事件监听
测试表明,经优化后英语识别延迟可从1.2s降至400ms左右
この答えは記事から得たものである。Vosk-Browser:ブラウザ上で動作する音声認識ツールについて