
Smart Dictation ist eine leistungsstarke macOS-App, die fortschrittliche KI-Technologie nutzt, um Benutzer bei der einfachen Umwandlung von Audioaufnahmen in Text zu unterstützen. Die App integriert die neuesten GPT-4o- und Whisper-Modelle von OpenAI, um eine genaue Transkription, Übersetzung und Zusammenfassung zu ermöglichen. Ob Sie ein Meeting aufzeichnen...

Voquill ist ein in Chrome installiertes KI-Tool. Es ermöglicht den Nutzern, auf jeder Website die Spracheingabe anstelle der Tastatureingabe zu verwenden. Wenn Sie eine E-Mail schreiben, auf eine Chat-Nachricht antworten oder ein Dokument bearbeiten, können Sie einfach sprechen und Voquill wird Ihre Stimme in Echtzeit in Text umwandeln. Zusätzlich zum einfachen Sprachdiktat bietet dieses Tool eine...

Grabcube ist ein kostenloses Audio- und Videobearbeitungstool, das sich auf das Herunterladen von Video- und Audiodateien, AI-Sprache in Text, Untertitelübersetzung und -bearbeitung konzentriert. Es unterstützt mehr als 1.000 große Plattformen, einschließlich YouTube, Bilibili, Vimeo, etc. und ermöglicht es Benutzern, Video- und Audiodateien in mehreren Formaten ohne Einschränkungen herunterzuladen.Grabcub...

Recap ist ein Open-Source-Tool, das für macOS entwickelt wurde, um Nutzern zu helfen, Audioaufnahmen von Meetings schnell aufzuzeichnen, zu transkribieren und zusammenzufassen. Es verarbeitet alle Daten lokal, ohne sie in die Cloud hochzuladen, und schützt so die Privatsphäre der Nutzer. Der Entwickler Rawand Ahmad hat Recap entwickelt, um das Problem von Meetings zu lösen, bei denen es schwierig ist, sich gleichzeitig auf die Diskussion und die Aufzeichnung zu konzentrieren....

Whisper_Cloudflare ist ein Open-Source-Projekt des Entwicklers thun888, das auf GitHub gehostet wird. Es basiert auf dem Whisper-Modell von OpenAI und kombiniert die serverlose Architektur von Cloudflare Workers, um eine hocheffiziente Sprache-zu-Text...

Spokenly ist ein Sprache-zu-Text-Tool für macOS, das Benutzern helfen soll, Text schnell per Sprache einzugeben und die Arbeitseffizienz zu verbessern. Es nutzt fortschrittliche KI-Technologien (wie Whisper und GPT-4o), um Sprache in Echtzeit in Text umzuwandeln, unterstützt über 100 Sprachen und eignet sich für eine Vielzahl von Szenarien wie...

OpusLM_7B_Anneal ist ein Open-Source-Sprachverarbeitungsmodell, das vom ESPnet-Team entwickelt und auf der Hugging Face-Plattform gehostet wird. Es konzentriert sich auf eine Vielzahl von Aufgaben wie Spracherkennung, Text-to-Speech, Sprachübersetzung und Sprachverbesserung und eignet sich für Forscher und Entwickler zum Experimentieren und zur Anwendung im Bereich der Sprachverarbeitung. Das Modell basiert auf...

OpenWispr ist eine Open-Source-Desktop-Sprach-zu-Text-Anwendung, die auf der OpenAI Whisper-Technologie basiert und die Sprache des Benutzers schnell in Text umwandelt. Es bietet sowohl lokale als auch Cloud-Verarbeitungsoptionen, wobei der Schwerpunkt auf dem Schutz der Privatsphäre liegt und die Daten vollständig lokal belassen werden können. Benutzer können das Diktat schnell mit globalen Hotkeys starten, und der Text wird automatisch an der Cursorposition eingefügt, geeignet für...

vosk-browser 是一个在浏览器中运行的语音识别工具,基于 WebAssembly 技术构建,使用 Vosk 语音识别库。它支持在浏览器中直接处理麦克风输入或音频文件,提供离线语音转文字功能,无需依赖云端服务器。该工具支持英语、德语...

Any2Text ist ein kostenloses Online-Tool, das sich auf die schnelle Umwandlung von Audio- und Videodateien in Text konzentriert. Es nutzt eine fortschrittliche KI-Spracherkennungstechnologie, unterstützt über 100 Sprachen und eignet sich für eine Vielzahl von Szenarien wie die Aufzeichnung von Meetings, die Transkription von Podcasts und die Erstellung von Untertiteln. Benutzer können es ohne Registrierung verwenden, es ist einfach zu bedienen und Sie können Dateien hochladen, um hochpräzise Texte zu erhalten...

Whisper App ist ein kostenloses und quelloffenes Tool, das es Nutzern ermöglicht, Notizen per Sprache aufzunehmen und mithilfe von KI-Technologie in Text umzuwandeln, um Inhalte wie Listen, Blogs oder Aufgaben zu erstellen. Das von Nutlope entwickelte und auf GitHub gehostete Projekt basiert auf dem Whisper-Modell von Together.ai...

Voxtral ist sein erstes offenes Audiomodell, das am 15. Juli 2025 vom französischen KI-Startup Mistral AI veröffentlicht wurde. Voxtral zielt darauf ab, kommerzielle Anwendungen mit Sprachverstehensfähigkeiten out-of-the-box für Produktionsumgebungen auszustatten, zu einem Preis, der auf dem Markt sehr wettbewerbsfähig ist. Es gibt zwei Versionen des Voxtral-Modells für die Produktion...

SimpleListenJournal ist ein Audio/Video-zu-Text-Tool von Baidu, das sich auf die schnelle Umwandlung von Sprach- oder Videoinhalten in Text konzentriert und eine intelligente KI-Analyse bietet. Benutzer können Audio, Video oder Eingabetext hochladen, um hochpräzise Transkriptionsergebnisse und automatische Zusammenfassungen zu erhalten. Die Plattform unterstützt mehrere Sprachen und eignet sich für eine Vielzahl von Szenarien wie Sitzungsprotokolle, Kursnotizen, die Organisation von Podcasts usw. Boundary...

Tencent Meeting AI Little Assistant Pro ist ein intelligentes Tool zur Unterstützung von Meetings, das von Tencent eingeführt wurde und die Effizienz und den Komfort von Online-Meetings verbessern soll. Es analysiert den Inhalt von Meetings in Echtzeit mit Hilfe von künstlicher Intelligenz und bietet personalisierte Erinnerungen, fasst wichtige Informationen zusammen und erstellt Aufgabenlisten, damit sich die Nutzer auf die Diskussion konzentrieren können, ohne das Wesentliche zu verpassen.AI Little Assistant Pro unterstützt...

Flash Notes ist ein intelligentes Notizen-Tool von Nail, das Benutzern helfen soll, Informationen schnell aufzuzeichnen, zu organisieren und zu teilen. Es unterstützt eine Vielzahl von Aufnahmemethoden wie Sprache, Text und Bilder und ist für Einzelpersonen und Teams geeignet, um Notizen bei der Arbeit, im Studium oder im Leben effizient zu verwalten. Flash Notes wandelt Sprache mit Hilfe intelligenter Technologie in Text um und organisiert den Inhalt automatisch, so dass die mühsame manuelle Eingabe entfällt. Benutzer können...

Das Delayed-Streams-Modelling-Projekt von Kyutai Labs ist ein Open-Source-Framework für die Umwandlung von Sprache in Text, dessen Kern auf der Delayed-Stream-Modelling-Technologie (DSM) basiert. Es unterstützt Echtzeit-Sprache-zu-Text- (STT) und Text-zu-Sprache- (TTS) Funktionen, die für die Entwicklung effizienter Sprachinteraktionsanwendungen geeignet sind. Das Projekt bietet P...
Very Fast Dictation ist ein Open-Source-Sprach-zu-Text-Tool, das für Mac-Benutzer entwickelt wurde. Es verwendet schnelle Spracherkennungstechnologie, um das, was der Benutzer sagt, in Echtzeit in Text umzuwandeln, für jedes Szenario, das Texteingabe erfordert. Das Projekt ist auf GitHub gehostet, entwickelt von Entwickler Avi Aryan, und verwendet...

Simple Subtitling 是一个开源的音频字幕生成工具,专注于为视频或音频文件自动生成字幕并标注说话者身份。项目由 Jaesung Huh 开发,托管在 GitHub 上,旨在提供简单高效的字幕生成解决方案。工具通过音频处理技术,...

Abogen 是一个开源工具,专为将 ePub、PDF 或纯文本文件快速转换为高质量音频而设计。它使用 Kokoro-82M 模型生成自然流畅的语音,同时支持同步字幕生成,适合制作有声读物、视频配音或学习辅助材料。用户可以选择多种语言和男女...
zurück zum Anfang

