Voxtral ist sein erstes offenes Audiomodell, das am 15. Juli 2025 vom französischen KI-Startup Mistral AI veröffentlicht wurde. Voxtral zielt darauf ab, kommerzielle Anwendungen mit Sprachverstehensfähigkeiten out-of-the-box für Produktionsumgebungen auszustatten, zu einem Preis, der auf dem Markt sehr wettbewerbsfähig ist. Das Voxtral-Modell ist in zwei Versionen für .... erhältlich
SimpleListenJournal ist ein Audio/Video-zu-Text-Tool von Baidu, das sich auf die schnelle Umwandlung von Sprach- oder Videoinhalten in Text konzentriert und eine intelligente KI-Analyse bietet. Benutzer können Audio, Video oder Eingabetext hochladen, um hochpräzise Transkriptionsergebnisse und automatische Zusammenfassungen zu erhalten. Die Plattform unterstützt mehrere Sprachen für...
Tencent Meeting AI Assistant Pro ist ein intelligentes Tool zur Unterstützung von Meetings, das von Tencent eingeführt wurde, um die Effizienz und den Komfort von Online-Meetings zu verbessern. Es analysiert den Inhalt von Meetings in Echtzeit mit Hilfe von künstlicher Intelligenz und bietet personalisierte Erinnerungen, fasst wichtige Informationen zusammen und erstellt To-Do-Listen, damit sich die Nutzer auf die Diskussionen konzentrieren können und nichts Wichtiges verpassen...
Flash Notes ist ein intelligentes Notizen-Tool von Nail, das Benutzern hilft, Informationen schnell aufzuzeichnen, zu organisieren und zu teilen. Es unterstützt eine Vielzahl von Aufnahmemethoden wie Sprache, Text und Bilder, die für Einzelpersonen und Teams geeignet sind, um Notizen effizient in Arbeit, Studium oder Leben zu verwalten. Flash Notes wandelt Sprache durch intelligente Technologie in Text um und erstellt automatisch...
Das Delayed-Streams-Modelling-Projekt von Kyutai Labs ist ein Open-Source-Framework für die Umwandlung von Sprache in Text, dessen Kern auf der Delayed-Stream-Modelling-Technologie (DSM) basiert. Es unterstützt Echtzeit-Sprache-zu-Text- (STT) und Text-zu-Sprache- (TTS) Funktionen, die für die Entwicklung effizienter Sprachinteraktionsanwendungen geeignet sind. Das Projekt bietet P...
Very Fast Dictation ist ein Open-Source-Sprach-zu-Text-Tool, das für Mac-Benutzer entwickelt wurde. Es verwendet schnelle Spracherkennungstechnologie, um das, was der Benutzer sagt, in Echtzeit in Text umzuwandeln, für jedes Szenario, das Texteingabe erfordert. Das Projekt ist auf GitHub gehostet, entwickelt von Entwickler Avi Aryan, und verwendet...
Simple Subtitling ist ein Open-Source-Tool zur Erzeugung von Audio-Untertiteln, das sich auf die automatische Erzeugung von Untertiteln und die Kennzeichnung von Sprechern für Video- oder Audiodateien konzentriert. Das von Jaesung Huh entwickelte Projekt, das auf GitHub gehostet wird, zielt darauf ab, eine einfache und effiziente Lösung zur Erzeugung von Untertiteln zu bieten. Werkzeuge durch die Audioverarbeitungstechnologie .....
Abogen ist ein Open-Source-Tool zur schnellen Konvertierung von ePub-, PDF- oder reinen Textdateien in hochwertiges Audio. Es verwendet das Kokoro-82M-Modell, um natürliche und flüssige Sprache zu erzeugen, und unterstützt die gleichzeitige Erzeugung von Untertiteln, wodurch es sich für Hörbücher, Videosynchronisationen oder Lernhilfen eignet. Benutzer können wählen...
Kimi-Audio ist ein Open-Source-Audiobasismodell, das von Moonshot AI entwickelt wurde und sich auf das Verstehen, die Erzeugung und den Dialog von Audio konzentriert. Es unterstützt eine breite Palette von Audio-Verarbeitung Aufgaben wie Spracherkennung, Audio-Q&A, und Sprache Emotion Anerkennung. Das Modell wurde mit über 13 Millionen Stunden Audiodaten vortrainiert, kombiniert mit innovativen...
On-Device AI ist eine KI-App, die komplett offline läuft und für Apple-Geräte entwickelt wurde, die iOS, macOS und visionOS unterstützen. Sie bietet ein lokales Large-Scale Language Model (LLM), Sprachtranskription in Echtzeit, Dokumentenanalyse usw. und kann ohne Internetverbindung verwendet werden, um den Datenschutz zu gewährleisten. Benutzer können Sprache...
Vexa ist eine Open-Source-Plattform für die Echtzeit-Transkription von Meetings und das Wissensmanagement, die effiziente Meeting-Aufzeichnungen und intelligente Wissensextraktionsdienste für Unternehmen und Privatpersonen bietet. Es verbindet sich automatisch mit Google Meet, Zoom und anderen Plattformen durch API-gesteuerte Meeting-Roboter, transkribiert Sprache in Text in Echtzeit und unterstützt 99 Arten von...
realtime-transcription-fastrtc ist ein Open-Source-Projekt, das sich auf die Umwandlung von Sprache in Text in Echtzeit konzentriert. Es nutzt die FastRTC-Technologie, um Audioströme mit geringer Latenz zu verarbeiten, kombiniert mit nativen Whisper-Modellen für eine effiziente Spracherkennung. Das Projekt wird von dem Entwickler sofi444 betreut, der...
Transkriptor ist ein KI-gesteuertes Transkriptionstool, das sich auf die schnelle Umwandlung von Audio und Video in Text konzentriert. Es unterstützt über 100 Sprachen mit einer Genauigkeitsrate von bis zu 99% und eignet sich für eine Vielzahl von Szenarien wie Meetings, Interviews, Notizen im Klassenzimmer und mehr. Benutzer können Dateien hochladen, direkt aufzeichnen oder über Links zu Zoom, Go...
Otter.ai ist ein KI-gestütztes Meeting-Management- und Sprachtranskriptionstool mit der Kernfunktionalität, Sprache in Echtzeit in Text umzuwandeln und automatisch Meeting-Notizen, Zusammenfassungen und Aktionspunkte zu erstellen. Otter.ai wird von einem intelligenten KI-Meeting-Agenten angetrieben, der automatisch an Meetings wie Zoom, Google Meet usw. teilnimmt und die...
TurboScribe ist ein KI-basiertes Transkriptionswerkzeug, das sich auf die schnelle Umwandlung von Audio und Video in Text konzentriert. Es unterstützt mehr als 98 Sprachen mit einer Genauigkeitsrate von 99,8% für Benutzer, die Sprachinhalte effizient verarbeiten müssen. Benutzer können Dateien hochladen, um Transkripte oder Untertitel zu generieren, die einfach zu bedienen sind und schnell...
Aqua Voice ist ein intelligentes sprachbasiertes Texterstellungswerkzeug, das sich auf die schnelle Umwandlung von Benutzersprache in formatierten Text konzentriert. Es wurde 2023 von Finnian Brown und Jack McIntire gegründet, hat seinen Sitz in San Francisco, USA, und ist Teil von Y Combinator W24 ...
Dolphin ist ein Open-Source-Modell, das von DataoceanAI in Zusammenarbeit mit der Tsinghua-Universität entwickelt wurde und sich auf Spracherkennung und Spracherkennung für asiatische Sprachen konzentriert. Es unterstützt 40 Sprachen in Ostasien, Südasien, Südostasien und dem Nahen Osten sowie 22 chinesische Dialekte. Das Modell basiert auf über 210.000 Stunden trainierter Audiodaten...
TwinMind ist ein intelligentes Tool, das von ThirdEar AI, Inc. entwickelt wurde und sich "alles für Sie merkt". Es kann Gespräche, Meetings oder Vorlesungen aufzeichnen und in Echtzeit in Text umwandeln, in mehr als 100 Sprachen, und kann offline verwendet werden, auch wenn das Telefon in der Tasche ist. Die Nutzer müssen sich nicht selbst Notizen machen, TwinMind wird...
Wispr Flow ist ein sprachgesteuertes Texteingabetool, das Benutzern hilft, schnell am Computer zu schreiben. Mit einer "3x schneller als Tippen"-Erfahrung können Benutzer Text in jede Anwendung, wie Word, Slack oder Gmail, nur durch natürliches Sprechen eingeben.Wispr Flow unterstützt mehr als 100 Sprachen...