Simple Subtitling ist ein Open-Source-Tool zur Erzeugung von Audio-Untertiteln, das sich auf die automatische Erzeugung von Untertiteln und die Kennzeichnung von Sprechern für Video- oder Audiodateien konzentriert. Das von Jaesung Huh entwickelte Projekt, das auf GitHub gehostet wird, zielt darauf ab, eine einfache und effiziente Lösung zur Erzeugung von Untertiteln zu bieten. Werkzeuge durch die Audioverarbeitungstechnologie .....
Abogen ist ein Open-Source-Tool zur schnellen Konvertierung von ePub-, PDF- oder reinen Textdateien in hochwertiges Audio. Es verwendet das Kokoro-82M-Modell, um natürliche und flüssige Sprache zu erzeugen, und unterstützt die gleichzeitige Erzeugung von Untertiteln, wodurch es sich für Hörbücher, Videosynchronisationen oder Lernhilfen eignet. Benutzer können wählen...
Kimi-Audio ist ein Open-Source-Audiobasismodell, das von Moonshot AI entwickelt wurde und sich auf das Verstehen, die Erzeugung und den Dialog von Audio konzentriert. Es unterstützt eine breite Palette von Audio-Verarbeitung Aufgaben wie Spracherkennung, Audio-Q&A, und Sprache Emotion Anerkennung. Das Modell wurde mit über 13 Millionen Stunden Audiodaten vortrainiert, kombiniert mit innovativen...
On-Device AI 是一款完全离线运行的AI应用,专为苹果设备设计,支持iOS、macOS和visionOS。它提供本地大型语言模型(LLM)运行、实时语音转录、文档分析等功能,无需联网即可使用,确保数据隐私。用户可通过语音...
Vexa 是一个开源的实时会议转录和知识管理平台,旨在为企业和个人提供高效的会议记录与智能知识提取服务。它通过 API 驱动的会议机器人,自动加入 Google Meet、Zoom 等平台,实时将语音转录为文本,并支持 99 种...
realtime-transcription-fastrtc 是一个开源项目,专注于将语音实时转换为文字。它利用 FastRTC 技术处理低延迟音频流,结合本地 Whisper 模型实现高效的语音识别。项目由开发者 sofi444 维护,托...
Transkriptor ist ein KI-gesteuertes Transkriptionstool, das sich auf die schnelle Umwandlung von Audio und Video in Text konzentriert. Es unterstützt über 100 Sprachen mit einer Genauigkeitsrate von bis zu 99% und eignet sich für eine Vielzahl von Szenarien wie Meetings, Interviews, Notizen im Klassenzimmer und mehr. Benutzer können Dateien hochladen, direkt aufzeichnen oder über Links zu Zoom, Go...
Otter.ai ist ein KI-gestütztes Meeting-Management- und Sprachtranskriptionstool mit der Kernfunktionalität, Sprache in Echtzeit in Text umzuwandeln und automatisch Meeting-Notizen, Zusammenfassungen und Aktionspunkte zu erstellen. Otter.ai wird von einem intelligenten KI-Meeting-Agenten angetrieben, der automatisch an Meetings wie Zoom, Google Meet usw. teilnimmt und die...
TurboScribe 是一个基于人工智能的转录工具,专注于将音频和视频快速转为文字。它支持超过98种语言,准确率高达99.8%,适合需要高效处理语音内容的用户。用户可以上传文件,生成文字记录或字幕,操作简单,速度快...
Aqua Voice 是一个基于语音的智能文本生成工具,专注于将用户语音快速转化为格式化文本。它由 Finnian Brown 和 Jack McIntire 创建于2023年,总部位于美国旧金山,隶属于 Y Combinator W24 ...
Dolphin 是由 DataoceanAI 和清华大学合作开发的一个开源模型,专注于亚洲语言的语音识别和语言识别。它支持东亚、南亚、东南亚及中东地区的 40 种语言,以及 22 种中国方言。模型基于超过 21 万小时的音频数据训...
TwinMind ist ein intelligentes Tool, das von ThirdEar AI, Inc. entwickelt wurde und sich "alles für Sie merkt". Es kann Gespräche, Meetings oder Vorlesungen aufzeichnen und in Echtzeit in Text umwandeln, in mehr als 100 Sprachen, und kann offline verwendet werden, auch wenn das Telefon in der Tasche ist. Die Nutzer müssen sich nicht selbst Notizen machen, TwinMind wird...
Wispr Flow 是一个通过语音输入文字的工具,帮助用户在电脑上快速写作。它主打“3倍于打字速度”的体验,用户只需自然说话,就能将文字输入到任何应用中,比如 Word、Slack 或 Gmail。Wispr Flow 支持100多种语言...
Local-NotebookLM 是一个开源项目,旨在提供本地运行的智能文档处理与内容生成工具。它受到 Google NotebookLM 的启发,专注于帮助用户将 PDF 等文档转化为多种输出格式,如播客、访谈或讲座等,同时支持本地部署....
AssemblyAI 是一个专注于语音AI技术的平台,为开发者和企业提供高效的语音转文字和音频分析工具。其核心亮点在于 Universal 系列模型,尤其是最新发布的 Universal-2,这是 AssemblyAI 迄今最先进的语音转文...
FireRedASR 是由小红书 FireRed 团队开发并开源的语音识别模型,专注于提供高精度、多语言支持的自动语音识别(ASR)解决方案。项目托管于 GitHub,面向开发者与研究者,提供工业级设计,支持普通话、中文方言、...
WhisperChain 是一个基于人工智能的开源项目,托管在 GitHub 上,由开发者 Chris Choy 主导开发。它主要用于将语音转化为文字,并通过 AI 技术自动优化表达,去除冗余的口语化词语(如“啊”“嗯”等填充词),提升文....
LLPlayer 是一款专为语言学习者设计的开源媒体播放器,托管于 GitHub,由开发者 umlx5h 创建。它集成了多种实用功能,如双语字幕显示、AI 自动生成字幕、实时翻译和单词查询等,旨在帮助用户通过观看视频提升语言...
CapsWriter-Offline 是一个专注于PC端的语音输入和字幕转录工具,托管于 GitHub,由开发者 HaujetZhao 打造。它完全离线运行,无需联网即可实现语音转文字和音视频文件转录字幕的功能,支持无限时长录音、中英文.....