通过BrowserAI进行语音识别的完整操作流程如下:
- 模型选择:在界面中选择专用语音模型(如whisper-tiny-en),该模型针对英语优化,占用资源较少
- 模型加载:点击”Load Model”按钮,等待控制台显示加载完成提示(耗时取决于硬件性能)
- 录音准备:
- 确保浏览器已获取麦克风权限
- 在安静环境下准备录音(建议3-5秒短句测试)
- 开始录音:点击”Start Recording”按钮并说话,界面会显示实时波形图
- 结束处理:
- 点击”Stop Recording”终止录音
- 系统自动进行语音识别(通常2-10秒)
- 结果获取:转录文字显示在输出框中,可复制或导出
高级技巧:在代码中配置return_timestamps参数可获得带时间戳的文本;通过npm run build可生成优化后的生产版本提升识别速度。
本答案来源于文章《BrowserAI:利用WebGPU在浏览器本地运行AI模型》