Vosk作为开源语音识别引擎,在本项目中承担音频转文字的核心功能。系统使用特定中文模型vosk-model-cn-0.22,需存储于SD卡并通过Python服务运行,支持离线识别但识别精度受发音清晰度影响明显。为提升效果,可采用更高性能的vosk-model-cn-0.22-large模型。语音转文字服务通过Flask框架提供REST接口,局域网设备均可调用该功能。当用户说出唤醒词’hi, 乐鑫’并提问时,设备自动启动录音并在2秒静默后提交处理。
本答案来源于文章《AI-Chatbox:基于ESP32S3的语音转文字智能对话项目》