Voxtral是法国AI创业公司Mistral AI于2025年7月15日发布的其首个开放式音频模型。 Voxtral旨在为商业应用提供生产环境开箱即用的语音理解功能,其价格具有很高的市场竞争力。 Voxtral模型有两个版本,分别是用于....
简单听记是百度推出的一款音视频转文字工具,专注于将语音或视频内容快速转化为文字,并提供AI智能分析功能。用户可以通过上传音频、视频或输入文本,获取高精度的转写结果和自动总结。平台支持多种语言,适用于...
腾讯会议AI小助手Pro是腾讯推出的一款智能会议辅助工具,旨在提升线上会议的效率与便捷性。它通过人工智能技术,实时分析会议内容,提供个性化提醒、总结关键信息和生成待办事项,帮助用户专注于讨论,不错过重点...
闪记是钉钉推出的一款智能笔记工具,旨在帮助用户快速记录、整理和分享信息。它支持语音、文字和图片等多种记录方式,适合个人和团队在工作、学习或生活中高效管理笔记。闪记通过智能技术将语音转为文字,并自动...
Kyutai Labs的delayed-streams-modeling项目是一个开源的语音与文本转换框架,核心基于延迟流建模(DSM)技术。它支持实时语音转文本(STT)和文本转语音(TTS)功能,适用于构建高效的语音交互应用。项目提供P...
Very Fast Dictation 是一个专为 Mac 用户设计的开源语音转文字工具。它通过快速的语音识别技术,将用户说的话实时转化为文字,适用于任何需要输入文字的场景。项目托管在 GitHub,由开发者 Avi Aryan 开发,采用...
Simple Subtitling 是一个开源的音频字幕生成工具,专注于为视频或音频文件自动生成字幕并标注说话者身份。项目由 Jaesung Huh 开发,托管在 GitHub 上,旨在提供简单高效的字幕生成解决方案。工具通过音频处理技.....
Abogen 是一个开源工具,专为将 ePub、PDF 或纯文本文件快速转换为高质量音频而设计。它使用 Kokoro-82M 模型生成自然流畅的语音,同时支持同步字幕生成,适合制作有声读物、视频配音或学习辅助材料。用户可以选...
Kimi-Audio 是由 Moonshot AI 开发的一款开源音频基础模型,专注于音频理解、生成和对话。它支持多种音频处理任务,例如语音识别、音频问答和语音情感识别。模型经过超过 1300 万小时的音频数据预训练,结合创新...
On-Device AI 是一款完全离线运行的AI应用,专为苹果设备设计,支持iOS、macOS和visionOS。它提供本地大型语言模型(LLM)运行、实时语音转录、文档分析等功能,无需联网即可使用,确保数据隐私。用户可通过语音...
Vexa 是一个开源的实时会议转录和知识管理平台,旨在为企业和个人提供高效的会议记录与智能知识提取服务。它通过 API 驱动的会议机器人,自动加入 Google Meet、Zoom 等平台,实时将语音转录为文本,并支持 99 种...
realtime-transcription-fastrtc 是一个开源项目,专注于将语音实时转换为文字。它利用 FastRTC 技术处理低延迟音频流,结合本地 Whisper 模型实现高效的语音识别。项目由开发者 sofi444 维护,托...
Transkriptor 是一个人工智能驱动的转录工具,专注于将音频和视频快速转为文字。它支持超过100种语言,准确率高达99%,适用于会议、采访、课堂笔记等多种场景。用户可以上传文件、直接录音或通过链接转录Zoom、Go...
Otter.ai 是一个人工智能驱动的会议管理与语音转录工具,核心功能是将语音实时转为文字,并自动生成会议笔记、摘要和行动项。它通过 AI Meeting Agent 提供智能支持,能自动加入 Zoom、Google Meet 等会议,捕捉...
TurboScribe 是一个基于人工智能的转录工具,专注于将音频和视频快速转为文字。它支持超过98种语言,准确率高达99.8%,适合需要高效处理语音内容的用户。用户可以上传文件,生成文字记录或字幕,操作简单,速度快...
Aqua Voice 是一个基于语音的智能文本生成工具,专注于将用户语音快速转化为格式化文本。它由 Finnian Brown 和 Jack McIntire 创建于2023年,总部位于美国旧金山,隶属于 Y Combinator W24 ...
Dolphin 是由 DataoceanAI 和清华大学合作开发的一个开源模型,专注于亚洲语言的语音识别和语言识别。它支持东亚、南亚、东南亚及中东地区的 40 种语言,以及 22 种中国方言。模型基于超过 21 万小时的音频数据训...
TwinMind 是由 ThirdEar AI, Inc. 开发的一款智能工具,主打“帮你记住一切”。它能把对话、会议或讲座实时录下来并转成文字,支持 100 多种语言,哪怕手机放口袋里也能离线用。用户不用自己记笔记,TwinMind 会自...
Wispr Flow 是一个通过语音输入文字的工具,帮助用户在电脑上快速写作。它主打“3倍于打字速度”的体验,用户只需自然说话,就能将文字输入到任何应用中,比如 Word、Slack 或 Gmail。Wispr Flow 支持100多种语言...