通过BrowserAI进行语音识别的完整操作流程如下:
- モデルの選択:在界面中选择专用语音模型(如whisper-tiny-en),该模型针对英语优化,占用资源较少
- モデルローディング:点击”Load Model”按钮,等待控制台显示加载完成提示(耗时取决于硬件性能)
- 录音准备::
- 确保浏览器已获取麦克风权限
- 在安静环境下准备录音(建议3-5秒短句测试)
- 録音開始:点击”Start Recording”按钮并说话,界面会显示实时波形图
- 结束处理::
- 点击”Stop Recording”终止录音
- 系统自动进行语音识别(通常2-10秒)
- 結果を出す:转录文字显示在输出框中,可复制或导出
高级技巧:在代码中配置return_timestamps参数可获得带时间戳的文本;通过npm run build可生成优化后的生产版本提升识别速度。
この答えは記事から得たものである。BrowserAI:WebGPUを使ってブラウザ上でローカルにAIモデルを実行するについて