Simple Subtitling はオープンソースの音声字幕生成ツールで、動画や音声ファイルの字幕を自動生成し、話者をラベル付けすることに重点を置いています。GitHubでホストされているJaesung Huhによって開発されたプロジェクトで、シンプルで効率的な字幕生成ソリューションを提供することを目的としています。音声処理技術によるツール。
Abogenは、ePub、PDFまたはプレーンテキストファイルを高品質な音声に素早く変換するために設計されたオープンソースツールです。Kokoro-82Mモデルを使用して自然で滑らかな音声を生成し、同時字幕生成をサポートしているため、オーディオブック、ビデオ吹き替え、学習教材に適しています。ユーザーが選択できる...
Kimi-Audio 是由 Moonshot AI 开发的一款开源音频基础模型,专注于音频理解、生成和对话。它支持多种音频处理任务,例如语音识别、音频问答和语音情感识别。模型经过超过 1300 万小时的音频数据预训练,结合创新...
On-Device AI 是一款完全离线运行的AI应用,专为苹果设备设计,支持iOS、macOS和visionOS。它提供本地大型语言模型(LLM)运行、实时语音转录、文档分析等功能,无需联网即可使用,确保数据隐私。用户可通过语音...
Vexa 是一个开源的实时会议转录和知识管理平台,旨在为企业和个人提供高效的会议记录与智能知识提取服务。它通过 API 驱动的会议机器人,自动加入 Google Meet、Zoom 等平台,实时将语音转录为文本,并支持 99 种...
realtime-transcription-fastrtc 是一个开源项目,专注于将语音实时转换为文字。它利用 FastRTC 技术处理低延迟音频流,结合本地 Whisper 模型实现高效的语音识别。项目由开发者 sofi444 维护,托...
TranskriptorはAIを活用したテープ起こしツールで、音声や動画を素早くテキストに変換します。最大99%の精度で100以上の言語に対応しており、会議やインタビュー、授業ノートなど、さまざまなシーンに適しています。ファイルをアップロードしたり、直接録音したり、Zoom、Go...などへのリンク経由で書き起こしたりできます。
Otter.aiは、音声をリアルタイムでテキストに変換し、会議のメモ、サマリー、アクションアイテムを自動生成するコア機能を備えたAI搭載の会議管理・音声書き起こしツールです。Zoom、Google Meetなどの会議に自動的に参加し、音声をキャプチャするAIミーティングエージェントによってインテリジェントに機能します。
TurboScribe 是一个基于人工智能的转录工具,专注于将音频和视频快速转为文字。它支持超过98种语言,准确率高达99.8%,适合需要高效处理语音内容的用户。用户可以上传文件,生成文字记录或字幕,操作简单,速度快...
Aqua Voice 是一个基于语音的智能文本生成工具,专注于将用户语音快速转化为格式化文本。它由 Finnian Brown 和 Jack McIntire 创建于2023年,总部位于美国旧金山,隶属于 Y Combinator W24 ...
Dolphin 是由 DataoceanAI 和清华大学合作开发的一个开源模型,专注于亚洲语言的语音识别和语言识别。它支持东亚、南亚、东南亚及中东地区的 40 种语言,以及 22 种中国方言。模型基于超过 21 万小时的音频数据训...
TwinMindはThirdEar AI, Inc.が開発した「あなたのためにすべてを記憶する」スマートツールです。会話や会議、講義をリアルタイムで録音・テキスト化し、100以上の言語に対応。ユーザーは自分でメモを取る必要はなく、TwinMindが...
Wispr Flow 是一个通过语音输入文字的工具,帮助用户在电脑上快速写作。它主打“3倍于打字速度”的体验,用户只需自然说话,就能将文字输入到任何应用中,比如 Word、Slack 或 Gmail。Wispr Flow 支持100多种语言...
Local-NotebookLM 是一个开源项目,旨在提供本地运行的智能文档处理与内容生成工具。它受到 Google NotebookLM 的启发,专注于帮助用户将 PDF 等文档转化为多种输出格式,如播客、访谈或讲座等,同时支持本地部署....
AssemblyAI 是一个专注于语音AI技术的平台,为开发者和企业提供高效的语音转文字和音频分析工具。其核心亮点在于 Universal 系列模型,尤其是最新发布的 Universal-2,这是 AssemblyAI 迄今最先进的语音转文...
FireRedASR 是由小红书 FireRed 团队开发并开源的语音识别模型,专注于提供高精度、多语言支持的自动语音识别(ASR)解决方案。项目托管于 GitHub,面向开发者与研究者,提供工业级设计,支持普通话、中文方言、...
WhisperChain 是一个基于人工智能的开源项目,托管在 GitHub 上,由开发者 Chris Choy 主导开发。它主要用于将语音转化为文字,并通过 AI 技术自动优化表达,去除冗余的口语化词语(如“啊”“嗯”等填充词),提升文....
LLPlayer 是一款专为语言学习者设计的开源媒体播放器,托管于 GitHub,由开发者 umlx5h 创建。它集成了多种实用功能,如双语字幕显示、AI 自动生成字幕、实时翻译和单词查询等,旨在帮助用户通过观看视频提升语言...
CapsWriter-Offline 是一个专注于PC端的语音输入和字幕转录工具,托管于 GitHub,由开发者 HaujetZhao 打造。它完全离线运行,无需联网即可实现语音转文字和音视频文件转录字幕的功能,支持无限时长录音、中英文.....