当前位置：首页 » AI答疑

Vosk语音识别工具是AI-Chatbox项目的关键技术组件

2025-08-19

275

Vosk作为开源语音识别引擎，在本项目中承担音频转文字的核心功能。系统使用特定中文模型vosk-model-cn-0.22，需存储于SD卡并通过Python服务运行，支持离线识别但识别精度受发音清晰度影响明显。为提升效果，可采用更高性能的vosk-model-cn-0.22-large模型。语音转文字服务通过Flask框架提供REST接口，局域网设备均可调用该功能。当用户说出唤醒词’hi, 乐鑫’并提问时，设备自动启动录音并在2秒静默后提交处理。

本答案来源于文章《AI-Chatbox：基于ESP32S3的语音转文字智能对话项目》