Spokenly 是一款专为 macOS 设计的语音转文字工具,旨在帮助用户通过语音快速输入文字,提高工作效率。它利用先进的 AI 技术(如 Whisper 和 GPT-4o)将语音实时转换为文字,支持超过 100 种语言,适合多种场景,如写作、编程、笔记记录等。Spokenly 强调隐私保护,提供本地处理模式,语音数据无需上传云端。用户可通过快捷键触发语音输入,文字直接插入光标所在位置,操作简单流畅。无论是日常办公还是专业创作,Spokenly 都能让用户告别繁琐打字,专注于内容创作。
功能列表
- 实时语音转文字:通过快捷键启动,语音即时转换为文字,插入当前光标位置。
- 多语言支持:支持英语、西班牙语、中文等 100 多种语言,自动检测语言。
- 本地处理模式:使用本地 Whisper 模型,语音数据不离开设备,保护隐私。
- 云端高级模型:支持 GPT-4o 等云端模型,提供更高准确度和速度。
- 语音控制 Mac:通过 Agent 模式,执行打开应用、搜索网页等操作。
- AI 文本优化:自动修正语法、格式化文本,甚至翻译或改写内容。
- 转录历史记录:保存所有转录内容,支持搜索、回放和导出。
- 视频文件转录:支持直接处理视频文件,提取音频并转为文字。
- 自定义快捷键:用户可设置单键或组合键,快速启动语音输入。
使用帮助
安装流程
- 下载 Spokenly:访问 Mac App Store 或官网 spokenly.app,点击下载按钮。应用大小仅 2.9 MB,下载快速。
- 安装应用:下载完成后,打开安装包,按照提示完成安装。应用会自动出现在 macOS 菜单栏。
- 授予权限:首次启动时,系统会提示授予麦克风和辅助功能权限。点击“系统设置 > 隐私与安全性”,启用 Spokenly 的麦克风访问和辅助功能,确保语音输入和跨应用操作正常。
- 设置快捷键:打开 Spokenly,进入设置界面,默认快捷键为右 Command 键(⌘)。用户可自定义为 F15 等单键或组合键,确保不与其他应用冲突。
使用方法
1. 实时语音转文字
- 启动转录:将光标置于任意文本输入框(如浏览器、邮件、代码编辑器),按下设置好的快捷键(默认右 Command 键)。屏幕会弹出转录窗口。
- 开始说话:直接对着麦克风说话,Spokenly 会实时将语音转为文字,显示在窗口中。说完后再次按快捷键,文字自动插入光标位置。
- 选择模型:在“语音模型”设置中选择本地 Whisper 模型(隐私优先)或云端模型(如 GPT-4o,需网络连接)。本地模型适合无网络环境,云端模型准确度更高。
- 处理标点:云端模型(如 Whisper Large v3)支持自动添加标点符号。本地 Whisper 模型不支持直接识别标点,但可通过 AI 文本优化解决。例如,设置 AI 提示“将‘感叹号’转为‘!’”,即可将语音中的“Hi exclamation”转为“Hi!”。
2. 多语言支持与自动检测
- Spokenly 支持 100 多种语言,包括英语、中文、西班牙语等。无需手动选择语言,应用会自动检测输入语音的语言。
- 操作步骤:在设置中选择“自动语言检测”,开始说话后,系统会根据语音内容匹配语言并转录。例如,混合英语和中文的句子也能正确识别。
- 注意事项:语言识别效果因模型而异。云端模型(如 ElevenLabs Scribe)在多语言场景下表现更优,本地模型可能在稀有语言上准确度较低。
3. 语音控制 Mac(Agent 模式)
- 启用 Agent 模式:在设置中切换到“Agent 模式”。此模式将语音转为命令,控制 Mac 操作。
- 常用命令:
- “打开 Safari”:启动 Safari 浏览器。
- “搜索 Google 天气”:在默认浏览器中搜索天气信息。
- “运行终端命令 显示系统信息”:执行终端命令。
- 自定义命令:在“快速命令”标签中添加触发短语和动作。例如,设置“打开 Lifehacker”为触发短语,链接到 Lifehacker 网站 URL,每次说“Open Lifehacker”即可打开网页。
- 注意:复杂命令需清晰语音,避免模糊表述。未来版本将支持带参数的快捷方式。
4. AI 文本优化
- 设置 AI 提示:在“AI 提示”设置中输入自定义指令,例如“将文本翻译为西班牙语”或“修正语法并格式化为正式邮件”。
- 操作流程:录制语音后,选择 AI 提示快捷键,系统会根据指令处理转录文本。例如,说“会议明天九点”并应用“格式化为正式邮件”提示,输出可能是“尊敬的同事,会议定于明天上午 9 点举行”。
- 适用场景:适合快速生成专业文档、翻译多语言内容或优化草稿。
5. 转录历史与导出
- 查看历史:在应用主界面点击“历史记录”,查看所有转录内容。支持按关键词搜索。
- 回放与导出:选择某条记录,点击“回放”听原始音频,或点击“导出”保存为文本文件,兼容 .txt 和 .doc 格式。
- 管理存储:本地模型的音频和文本存储在 Mac 上,路径为
~/Library/Spokenly/Transcriptions
。云端模型不保存音频,仅临时处理。
6. 视频文件转录
- 导入视频:在版本 2.7.3 及以上,点击“文件”菜单,选择视频文件(支持 MP4、MOV 等格式)。
- 转录流程:应用自动提取音频并转为文字,输出到指定文本框或保存为文件。适合字幕生成或会议记录整理。
- 性能提示:大型视频文件可能需要更多处理时间,建议使用高性能 Mac 设备。
注意事项
- 网络需求:本地 Whisper 模型无需网络,云端模型需稳定连接。
- 设备要求:macOS 12.0 或以上,建议 8GB 以上内存以支持本地模型。
- 隐私保护:本地模式下,语音数据不上传。云端模式使用第三方服务(如 OpenAI、Deepgram),音频即时删除,不存储。用户可查看第三方隐私政策。
应用场景
- 快速笔记记录
- 场景描述:在会议或课堂中,用户需要快速记录灵感或重点。使用 Spokenly,按快捷键说出内容,文字即时出现在笔记应用中,节省打字时间。AI 文本优化可整理零散语音为结构化笔记。
- 编程与文档编写
- 场景描述:程序员或写作者可用语音输入代码注释或长篇文章。Spokenly 支持多语言,适合混合语言环境(如中英文档)。语音控制可快速打开 IDE 或搜索技术文档。
- 多语言沟通
- 场景描述:跨国团队成员用 Spokenly 实时转录多语言会议内容,或通过 AI 提示翻译为目标语言,方便邮件或聊天记录整理。
- 无障碍辅助
- 场景描述:手部不便的用户可通过语音控制 Mac,执行打开应用、发送消息等操作。Spokenly 的高准确度转录和自定义命令提升操作效率。
QA
- Spokenly 是否完全免费?
- Spokenly 基础功能免费,包括本地 Whisper 模型和 Apple 内置转录。云端高级模型(如 GPT-4o)未来可能引入付费订阅,但目前免费。
- 如何确保语音数据隐私?
- 本地模式下,数据不离开 Mac。云端模式使用第三方服务,音频处理后即时删除。用户可启用“本地模式”阻止网络请求。
- 支持哪些语言?
- 支持 100 多种语言,包括英语、中文、西班牙语等。自动语言检测适用于多语言混合场景,效果因模型而异。
- 如何处理视频文件转录?
- 在“文件”菜单选择视频,应用提取音频并转为文字。支持 MP4、MOV 格式,适合字幕生成或记录整理。
- 能否离线使用?
- 本地 Whisper 模型支持离线转录,但准确度稍低于云端模型。需确保 Mac 存储空间足够。