OpenWispr 是一款开源的桌面语音转文字应用,基于 OpenAI Whisper 技术,将用户语音快速转换为文本。它提供本地和云端处理选项,强调隐私保护,数据可完全留存在本地。用户通过全局热键快速启动听写,文本自动粘贴至光标位置,适合写作、编程、会议记录等场景。OpenWispr 支持跨平台运行(macOS、Windows、Linux),提供多种模型选择,平衡速度与准确性。其现代化界面和可拖动面板提升了使用体验,社区驱动的开发模式允许用户自由定制。
功能列表
- 实时语音转文字,自动将转录文本粘贴到光标位置。
- 支持本地处理,语音数据不上传云端,确保隐私安全。
- 提供云处理选项,通过 OpenAI API 实现更快转录。
- 全局热键(默认反引号
`
)快速启动/停止听写。 - 可拖动听写面板,自由调整屏幕位置。
- 支持多种 Whisper 模型(tiny、base、small、medium、large),适应不同需求。
- 提供代理命名功能,个性化 AI 助手名称,支持命令与常规听写区分。
- 内置控制面板,管理设置、查看转录历史、配置 API 密钥。
- 使用 SQLite 数据库本地存储转录历史,方便查看和管理。
- 跨平台支持,兼容 macOS、Windows 和 Linux。
- 开源代码,遵循 MIT 许可证,允许自由修改和分发。
使用帮助
安装流程
OpenWispr 提供开源版本,需手动安装,适合技术用户或需要定制的用户。以下是详细步骤:
开源版安装
- 克隆代码:访问
https://github.com/HeroTools/open-wispr
,运行以下命令:git clone https://github.com/HeroTools/open-wispr.git cd open-wispr
- 安装依赖:确保本地已安装 Node.js 18+ 和 npm,运行:
npm install
- 配置环境(可选,云处理需 OpenAI API 密钥):
- 复制环境模板文件:
cp env.example .env
- 编辑
.env
文件,添加 OpenAI API 密钥:OPENAI_API_KEY=your_openai_api_key_here
- 或者通过控制面板配置密钥(启动应用后操作)。
- 复制环境模板文件:
- 本地处理配置(可选):
- 确保安装 Python 3.7+(程序可自动安装)。
- 通过控制面板下载 Whisper 模型(tiny、base、small、medium、large)。
- 运行程序:
- 开发模式(支持热重载):
npm run dev
- 生产模式:
npm start
- 开发模式(支持热重载):
- 验证安装:启动后,点击系统托盘图标,打开控制面板检查状态,或按默认热键
`
测试听写。
构建独立应用(可选)
若需生成独立可执行文件:
- 运行以下命令:
npm run pack
- 输出路径:
- macOS:
dist/mac-arm64/OpenWispr.app
- Windows:
dist/win-unpacked/OpenWispr.exe
- Linux:
dist/linux-unpacked/open-wispr
- macOS:
- 注意:macOS 首次运行未签名应用可能需右键选择“打开”绕过安全警告。
权限设置
- 麦克风权限:首次运行时,授予 OpenWispr 麦克风访问权限。
- 辅助功能权限(macOS):为自动粘贴功能,需在系统设置 > 隐私与安全 > 辅助功能中启用 OpenWispr。
- 若权限问题持续存在,打开控制面板,点击“Fix Permission Issues”修复。
主要功能操作
实时语音转文字
- 启动 OpenWispr,屏幕显示小型可拖动听写面板。
- 按全局热键(默认
`
),面板显示录音动画,开始说话。 - 再次按热键停止录音,面板显示处理动画,转录文本自动粘贴至光标位置。
- 拖动面板至屏幕任意位置,方便多窗口操作。
选择处理方式
- 打开控制面板(右键系统托盘图标 > Control Panel)。
- 选择处理模式:
- 本地处理:下载 Whisper 模型(tiny 最快,large 质量最高),数据不离开设备。
- 云处理:输入 OpenAI API 密钥,处理速度更快,需网络连接。
- 保存设置后,模式立即生效。
代理命名
- 在首次设置或控制面板中为 AI 助手命名(如“Jarvis”)。
- 使用代理命令(如“嘿 Jarvis,格式化为列表”)触发 AI 协助功能。
- 常规听写无需调用代理名称,直接记录文本。
- AI 自动检测命令与常规听写,移除输出中的代理名称。
管理转录历史
- 打开控制面板,点击“History”查看所有转录记录。
- 支持复制、删除或搜索历史转录。
- 所有记录存储在本地 SQLite 数据库,路径在用户数据目录。
自定义热键
- 在控制面板的“Settings”中,点击“Hotkey”选项。
- 按下新组合键(如
Ctrl+Alt+V
)并保存。 - 若热键冲突,可随时更改为任意键。
特色功能操作
本地 Whisper 处理
- 在控制面板选择“Local Processing”。
- 程序自动检测 Python 环境,若缺失则提示安装 Python 3.11。
- 选择模型(tiny/base/small/medium/large),自动下载(39MB-1.5GB)。
- 确保足够磁盘空间,模型下载后即可离线使用。
云处理
- 在控制面板输入有效的 OpenAI API 密钥。
- 选择云处理模式,程序通过 OpenAI Whisper API 处理语音。
- 检查 API 密钥状态(控制面板显示“OpenAI API Key present: Yes/No”)。
可拖动界面
- 单击听写面板顶部,拖动至屏幕任意位置。
- 若面板移至屏幕外,重启应用可重置位置。
跨平台支持
- OpenWispr 兼容 macOS 10.15+、Windows 10+ 和 Linux。
- 在任意文本编辑器(如 VS Code、Notion)或浏览器中,按热键输入文本。
- 确保辅助功能权限启用,以支持跨应用自动粘贴。
注意事项
- 本地处理需要较高性能设备(推荐 8GB 内存,快速 CPU)。
- 云处理需稳定网络和有效 OpenAI API 密钥。
- 检查
DEBUG.md
文件以获取调试日志,解决运行问题。 - 若麦克风或粘贴功能失效,检查系统权限设置。
应用场景
- 高效写作
作家或内容创作者可通过语音快速生成文章初稿。OpenWispr 的全局热键和自动粘贴功能让输入流畅,适合博客、报告或小说创作。 - 编程注释
开发者可使用语音快速记录代码注释或技术文档。跨平台支持确保在 VS Code、PyCharm 等编辑器中无缝操作。 - 会议记录
学生或职场人士可用语音记录会议内容,本地处理模式保护敏感信息,历史记录功能便于整理和回顾。 - 多语言转录
支持 58 种语言(包括中文、英文、日文等),适合翻译工作者或国际交流场景,自动检测语言或通过.env
设置首选语言。
QA
- OpenWispr 是否完全免费?
是的,OpenWispr 开源且免费,遵循 MIT 许可证。云处理需自行支付 OpenAI API 费用。 - 本地处理与云处理的区别是什么?
本地处理数据不离开设备,适合隐私敏感场景,需较高硬件性能。云处理速度更快,需网络和 API 密钥。 - 如何解决热键冲突?
在控制面板的“Settings”中更改热键,支持任意键组合。 - 支持哪些语言?
支持 58 种语言,包括中文、英文、西班牙语等。可在.env
文件设置首选语言,或使用自动检测。 - 如何确保数据安全?
本地处理模式下,音频不上传云端。云处理依赖 OpenAI 隐私政策,API 密钥通过系统密钥管理器安全存储。 - 转录文本未自动粘贴怎么办?
检查 macOS 辅助功能权限是否启用,或尝试手动粘贴(Cmd+V
)。可通过控制面板的“Fix Permission Issues”修复。