Smart Dictation 是一款强大的macOS应用程序,它利用先进的人工智能技术,帮助用户轻松地将音频录音转换成文字。该应用集成了OpenAI最新的GPT-4o和Whisper模型,能够提供准确的转录、翻译和摘要服务。无论是在记.....
Voquill是一个安装在Chrome浏览器的AI工具。它让用户可以在任何网站上用语音输入代替键盘打字。当你在写邮件、回复聊天消息或者编辑文档时,可以直接说话,Voquill会把你的语音实时转换成文字。除了基础的语音听...
Grabcube 是一个免费的音视频处理工具,专注于视频和音频下载、AI语音转文字、字幕翻译与编辑。它支持超过1000个主流平台,包括YouTube、Bilibili、Vimeo等,允许用户无限制下载多种格式的视频和音频文件。Grabcu....
Recap 是一个专为 macOS 设计的开源工具,旨在帮助用户快速录制、转录和总结会议音频。它在本地处理所有数据,无需上传云端,保护用户隐私。开发者 Rawand Ahmad 打造 Recap,解决会议中难以同时专注讨论和记录的...
Whisper_Cloudflare 是一个由开发者 thun888 创建的开源项目,托管于 GitHub。它基于 OpenAI 的 Whisper 模型,结合 Cloudflare Workers 的无服务器架构,提供高效的语音转文字功能...
Spokenly 是一款专为 macOS 设计的语音转文字工具,旨在帮助用户通过语音快速输入文字,提高工作效率。它利用先进的 AI 技术(如 Whisper 和 GPT-4o)将语音实时转换为文字,支持超过 100 种语言,适合多种场景,....
OpusLM_7B_Anneal 是由 ESPnet 团队开发并在 Hugging Face 平台托管的开源语音处理模型。它专注于语音识别、文本转语音、语音翻译和语音增强等多种任务,适合研究人员和开发者在语音处理领域进行实验和应用。模型.....
OpenWispr 是一款开源的桌面语音转文字应用,基于 OpenAI Whisper 技术,将用户语音快速转换为文本。它提供本地和云端处理选项,强调隐私保护,数据可完全留存在本地。用户通过全局热键快速启动听写,文本自动粘...
vosk-browser 是一个在浏览器中运行的语音识别工具,基于 WebAssembly 技术构建,使用 Vosk 语音识别库。它支持在浏览器中直接处理麦克风输入或音频文件,提供离线语音转文字功能,无需依赖云端服务器。该工具支...
Any2Text 是一个免费的在线工具,专注于将音频和视频文件快速转换为文本。它利用先进的AI语音识别技术,支持超过100种语言,适合多种场景,如会议记录、播客转录和字幕生成。用户无需注册即可使用,操作简单,上...
Whisper App 是一个免费的开源工具,允许用户通过语音录制笔记,并利用 AI 技术将语音转为文字,生成清单、博客或任务等内容。项目由 Nutlope 开发,托管在 GitHub,基于 Together.ai 的 Whisper 模型...
Voxtral是法国AI创业公司Mistral AI于2025年7月15日发布的其首个开放式音频模型。 Voxtral旨在为商业应用提供生产环境开箱即用的语音理解功能,其价格具有很高的市场竞争力。 Voxtral模型有两个版本,分别是用于....
简单听记是百度推出的一款音视频转文字工具,专注于将语音或视频内容快速转化为文字,并提供AI智能分析功能。用户可以通过上传音频、视频或输入文本,获取高精度的转写结果和自动总结。平台支持多种语言,适用于...
腾讯会议AI小助手Pro是腾讯推出的一款智能会议辅助工具,旨在提升线上会议的效率与便捷性。它通过人工智能技术,实时分析会议内容,提供个性化提醒、总结关键信息和生成待办事项,帮助用户专注于讨论,不错过重点...
闪记是钉钉推出的一款智能笔记工具,旨在帮助用户快速记录、整理和分享信息。它支持语音、文字和图片等多种记录方式,适合个人和团队在工作、学习或生活中高效管理笔记。闪记通过智能技术将语音转为文字,并自动...
Kyutai Labs的delayed-streams-modeling项目是一个开源的语音与文本转换框架,核心基于延迟流建模(DSM)技术。它支持实时语音转文本(STT)和文本转语音(TTS)功能,适用于构建高效的语音交互应用。项目提供P...
Very Fast Dictation 是一个专为 Mac 用户设计的开源语音转文字工具。它通过快速的语音识别技术,将用户说的话实时转化为文字,适用于任何需要输入文字的场景。项目托管在 GitHub,由开发者 Avi Aryan 开发,采用...
Simple Subtitling 是一个开源的音频字幕生成工具,专注于为视频或音频文件自动生成字幕并标注说话者身份。项目由 Jaesung Huh 开发,托管在 GitHub 上,旨在提供简单高效的字幕生成解决方案。工具通过音频处理技.....
Abogen 是一个开源工具,专为将 ePub、PDF 或纯文本文件快速转换为高质量音频而设计。它使用 Kokoro-82M 模型生成自然流畅的语音,同时支持同步字幕生成,适合制作有声读物、视频配音或学习辅助材料。用户可以选...
回顶部