Smart Dictation ist eine leistungsstarke macOS-App, die fortschrittliche KI-Technologie nutzt, um Benutzer bei der einfachen Umwandlung von Audioaufnahmen in Text zu unterstützen. Die App integriert die neuesten GPT-4o- und Whisper-Modelle von OpenAI, um genaue Transkriptions-, Übersetzungs- und Zusammenfassungsdienste anzubieten. Ob Sie sich nun an ..... erinnern
Voquill ist ein in Chrome installiertes KI-Tool. Es ermöglicht den Nutzern, auf jeder Website die Spracheingabe anstelle der Tastatureingabe zu verwenden. Wenn Sie eine E-Mail schreiben, auf eine Chat-Nachricht antworten oder ein Dokument bearbeiten, können Sie einfach sprechen und Voquill wird Ihre Stimme in Echtzeit in Text umwandeln. Zusätzlich zu den grundlegenden Sprachfunktionen...
Grabcube ist ein kostenloses Audio- und Videoverarbeitungstool, das sich auf Video- und Audiodownloads, KI-Sprache in Text, Untertitelübersetzung und -bearbeitung konzentriert. Es unterstützt über 1.000 Mainstream-Plattformen, einschließlich YouTube, Bilibili, Vimeo, etc. und ermöglicht es Benutzern, Video- und Audiodateien in mehreren Formaten ohne Einschränkungen herunterzuladen.Grabcu....
Recap ist ein Open-Source-Tool, das für macOS entwickelt wurde, um Nutzern zu helfen, Audioaufnahmen von Meetings schnell aufzuzeichnen, zu transkribieren und zusammenzufassen. Es verarbeitet alle Daten lokal, ohne sie in die Cloud hochzuladen, um die Privatsphäre der Nutzer zu schützen. Der Entwickler Rawand Ahmad hat Recap entwickelt, um die Schwierigkeit zu lösen, sich in einem Meeting auf die Diskussion zu konzentrieren und gleichzeitig aufzuzeichnen...
Whisper_Cloudflare ist ein Open-Source-Projekt des Entwicklers thun888, das auf GitHub gehostet wird. Es basiert auf dem Whisper-Modell von OpenAI und kombiniert die serverlose Architektur von Cloudflare Workers, um eine hocheffiziente Sprache-zu-Text...
Spokenly ist ein Sprache-zu-Text-Tool für macOS, das Benutzern helfen soll, Text schnell per Sprache einzugeben und die Arbeitseffizienz zu verbessern. Es nutzt fortschrittliche KI-Technologien (wie Whisper und GPT-4o), um Sprache in Echtzeit in Text umzuwandeln, unterstützt über 100 Sprachen und eignet sich für eine Vielzahl von Szenarien. ....
OpusLM_7B_Anneal ist ein Open-Source-Sprachverarbeitungsmodell, das vom ESPnet-Team entwickelt und auf der Hugging Face-Plattform gehostet wird. Es konzentriert sich auf eine Vielzahl von Aufgaben wie Spracherkennung, Text-zu-Sprache, Sprachübersetzung und Sprachverbesserung und ist für Forscher und Entwickler geeignet, um im Bereich der Sprachverarbeitung zu experimentieren und anzuwenden. Das Modell .....
OpenWispr ist eine Open-Source-Desktop-Sprach-zu-Text-Anwendung, die auf der OpenAI Whisper-Technologie basiert und die Sprache des Benutzers schnell in Text umwandelt. Es bietet sowohl lokale als auch Cloud-Verarbeitungsoptionen, wobei der Schwerpunkt auf dem Schutz der Privatsphäre liegt, und die Daten können vollständig lokal belassen werden. Benutzer können das Diktat schnell über globale Hotkeys starten, und der Text wird automatisch...
vosk-browser ist ein Spracherkennungsprogramm, das im Browser läuft. Es basiert auf der WebAssembly-Technologie und verwendet die Vosk-Spracherkennungsbibliothek. Es unterstützt die Verarbeitung von Mikrofoneingaben oder Audiodateien direkt im Browser und bietet Offline-Sprache-zu-Text-Funktionalität, ohne auf Cloud-Server angewiesen zu sein. Das Tool unterstützt ...
Any2Text ist ein kostenloses Online-Tool, das sich auf die schnelle Umwandlung von Audio- und Videodateien in Text konzentriert. Es nutzt eine fortschrittliche KI-Spracherkennungstechnologie, unterstützt über 100 Sprachen und eignet sich für eine Vielzahl von Szenarien wie die Aufzeichnung von Meetings, die Transkription von Podcasts und die Erstellung von Untertiteln. Die Benutzer müssen sich nicht registrieren, um es zu nutzen, und es ist einfach zu bedienen...
Whisper App ist ein kostenloses und quelloffenes Tool, das es Nutzern ermöglicht, Notizen per Sprache aufzunehmen und mithilfe von KI-Technologie in Text umzuwandeln, um Inhalte wie Listen, Blogs oder Aufgaben zu erstellen. Das von Nutlope entwickelte und auf GitHub gehostete Projekt basiert auf dem Whisper-Modell von Together.ai...
Voxtral ist sein erstes offenes Audiomodell, das am 15. Juli 2025 vom französischen KI-Startup Mistral AI veröffentlicht wurde. Voxtral zielt darauf ab, kommerzielle Anwendungen mit Sprachverstehensfähigkeiten out-of-the-box für Produktionsumgebungen auszustatten, zu einem Preis, der auf dem Markt sehr wettbewerbsfähig ist. Das Voxtral-Modell ist in zwei Versionen für .... erhältlich
SimpleListenJournal ist ein Audio/Video-zu-Text-Tool von Baidu, das sich auf die schnelle Umwandlung von Sprach- oder Videoinhalten in Text konzentriert und eine intelligente KI-Analyse bietet. Benutzer können Audio, Video oder Eingabetext hochladen, um hochpräzise Transkriptionsergebnisse und automatische Zusammenfassungen zu erhalten. Die Plattform unterstützt mehrere Sprachen für...
Tencent Meeting AI Assistant Pro ist ein intelligentes Tool zur Unterstützung von Meetings, das von Tencent eingeführt wurde, um die Effizienz und den Komfort von Online-Meetings zu verbessern. Es analysiert den Inhalt von Meetings in Echtzeit mit Hilfe von künstlicher Intelligenz und bietet personalisierte Erinnerungen, fasst wichtige Informationen zusammen und erstellt To-Do-Listen, damit sich die Nutzer auf die Diskussionen konzentrieren können und nichts Wichtiges verpassen...
Flash Notes ist ein intelligentes Notizen-Tool von Nail, das Benutzern hilft, Informationen schnell aufzuzeichnen, zu organisieren und zu teilen. Es unterstützt eine Vielzahl von Aufnahmemethoden wie Sprache, Text und Bilder, die für Einzelpersonen und Teams geeignet sind, um Notizen effizient in Arbeit, Studium oder Leben zu verwalten. Flash Notes wandelt Sprache durch intelligente Technologie in Text um und erstellt automatisch...
Das Delayed-Streams-Modelling-Projekt von Kyutai Labs ist ein Open-Source-Framework für die Umwandlung von Sprache in Text, dessen Kern auf der Delayed-Stream-Modelling-Technologie (DSM) basiert. Es unterstützt Echtzeit-Sprache-zu-Text- (STT) und Text-zu-Sprache- (TTS) Funktionen, die für die Entwicklung effizienter Sprachinteraktionsanwendungen geeignet sind. Das Projekt bietet P...
Very Fast Dictation ist ein Open-Source-Sprach-zu-Text-Tool, das für Mac-Benutzer entwickelt wurde. Es verwendet schnelle Spracherkennungstechnologie, um das, was der Benutzer sagt, in Echtzeit in Text umzuwandeln, für jedes Szenario, das Texteingabe erfordert. Das Projekt ist auf GitHub gehostet, entwickelt von Entwickler Avi Aryan, und verwendet...
Simple Subtitling ist ein Open-Source-Tool zur Erzeugung von Audio-Untertiteln, das sich auf die automatische Erzeugung von Untertiteln und die Kennzeichnung von Sprechern für Video- oder Audiodateien konzentriert. Das von Jaesung Huh entwickelte Projekt, das auf GitHub gehostet wird, zielt darauf ab, eine einfache und effiziente Lösung zur Erzeugung von Untertiteln zu bieten. Werkzeuge durch die Audioverarbeitungstechnologie .....
Abogen ist ein Open-Source-Tool zur schnellen Konvertierung von ePub-, PDF- oder reinen Textdateien in hochwertiges Audio. Es verwendet das Kokoro-82M-Modell, um natürliche und flüssige Sprache zu erzeugen, und unterstützt die gleichzeitige Erzeugung von Untertiteln, wodurch es sich für Hörbücher, Videosynchronisationen oder Lernhilfen eignet. Benutzer können wählen...
zurück zum Anfang