
VibeVoice-1.5B ist ein innovatives Open-Source Text-to-Speech (TTS) Modell, das von Microsoft Research veröffentlicht wurde. Es wurde speziell für die Erzeugung von ausdrucksstarken, langen Dialogen mit mehreren Zeichen entwickelt, z. B. für Podcasts oder Hörbücher. Die Kerninnovation von VibeVoice ist die Verwendung eines 7...

Kitten-TTS-Server ist ein Open-Source-Projekt, das einen funktionserweiterten Server für das leichtgewichtige KittenTTS-Modell bereitstellt. Benutzer können dieses Projekt nutzen, um ihren eigenen Text-to-Speech (TTS) Dienst zu erstellen. Der Hauptvorteil dieses Projekts ist, dass es auf dem ursprünglichen Modell basiert und eine intuitive Webseite hinzufügt ...

KittenTTS ist ein Open-Source-Text-to-Speech (TTS)-Modell, das auf Leichtigkeit und Effizienz ausgerichtet ist. Es benötigt weniger als 25 MB Speicherplatz, hat etwa 15 Millionen Parameter und läuft auf Low-End-Geräten ohne GPU-Unterstützung.KittenTTS wurde vom KittenML-Team entwickelt und bietet mehrere...

OpusLM_7B_Anneal ist ein Open-Source-Sprachverarbeitungsmodell, das vom ESPnet-Team entwickelt und auf der Hugging Face-Plattform gehostet wird. Es konzentriert sich auf eine Vielzahl von Aufgaben wie Spracherkennung, Text-to-Speech, Sprachübersetzung und Sprachverbesserung und eignet sich für Forscher und Entwickler zum Experimentieren und zur Anwendung im Bereich der Sprachverarbeitung. Das Modell basiert auf...

MOSS-TTSD ist ein Open-Source-Modell zur Erzeugung von Dialogsprache, das chinesische und englische Zweisprachigkeit unterstützt. Es kann Zwei-Personen-Dialogtext in natürliche und ausdrucksstarke Sprache umwandeln, die sich für die Produktion von KI-Podcasts, Sprachforschung und andere Szenarien eignet. Das Modell basiert auf einer Kodierungstechnologie mit niedriger Bitrate und unterstützt das Klonen von Zwei-Personen-Sprache ohne Proben und die Erzeugung von Einzelsprache bis zu 960 Sekunden...

FineShare ist eine Plattform, die sich auf KI-Audio- und -Videotechnologie konzentriert und eine Vielzahl von Tools anbietet, mit denen Nutzer hochwertige Sprach-, Musik- und Videoinhalte erstellen können. Zu den Kernprodukten der Website gehören FineVoice, Singify und FineCam für die Spracherzeugung und -konvertierung, die KI-Musikproduktion und die virtuelle Kamera...

Xunfei Zhizuo ist eine von Xunfei entwickelte Plattform, die Dienste zur Erstellung von Inhalten mit künstlicher Intelligenz anbietet. Ihre Kernfunktion besteht darin, vom Benutzer eingegebenen Text in Sprache umzuwandeln, ein Prozess, der oft als “KI-Synchronisation” oder “Sprachsynthese” bezeichnet wird. Die Benutzer können aus einer Vielzahl vorprogrammierter virtueller Stimmen (d. h. “Moderatoren”) mit verschiedenen Stilen wählen, wie z. B. Nachrichtensendungen...

ListenHub ist eine Plattform, die mit Hilfe künstlicher Intelligenz Webseiten, Dokumente oder Benutzereingaben schnell in Podcasts umwandelt. Sie unterstützt chinesische und englische Sprachsynthese, und die Nutzer können durch einfaches Hochladen einer Datei, Eingeben eines Themas oder Einfügen eines Links natürliche und flüssige Podcast-Audios erzeugen. Die Plattform ist einfach zu bedienen und eignet sich für die mobile Nutzung, so dass die Nutzer sie bequem während des Pendelns, beim Sport oder in der Freizeit empfangen können...

Higgs Audio ist ein von Boson AI entwickeltes Open-Source-Text-to-Speech (TTS)-Projekt, das sich auf die Erzeugung von qualitativ hochwertiger, emotionsgeladener Sprache und Dialogen mit mehreren Zeichen konzentriert. Das Projekt basiert auf über 10 Millionen Stunden Audiodaten-Training und unterstützt das Klonen von Null-Sample-Sprache, die Erzeugung natürlicher Dialoge und die mehrsprachige Sprachausgabe.Higgs A...

Parrot TTS ist eine Chrome-Erweiterung, die Webtext in natürliche Sprache umwandelt. Es verwendet fortschrittliche KI-Technologie, um eine fast menschliche Stimme zu bieten, die das Problem der traditionellen Text-to-Speech-Tools löst, die mechanisch klingen. Benutzer können Artikel, Nachrichten oder Forschungsmaterialien mit einem Klick in Audio konvertieren, geeignet für Multitasking...

AIdeaFlow Podcast ist eine KI-basierte Plattform zur Erstellung von Podcasts, mit der Benutzer Textinhalte schnell in hochwertige Podcasts umwandeln können. Sie unterstützt mehrere Sprachen und über 120 einzigartige Stimmen für Studenten, Fachleute und Inhaltsersteller. Benutzer geben einfach Text ein oder laden ein Skript hoch, und die Plattform generiert automatisch ein natürliches...

CosyVoice ist ein quelloffenes, mehrsprachiges Spracherzeugungsmodell, das sich auf hochwertige Text-to-Speech-Technologie (TTS) konzentriert. Es unterstützt die Sprachsynthese in mehreren Sprachen und bietet Funktionen wie Zero-Sample-Sprachgenerierung, sprachübergreifendes Sprachklonen und feinkörnige Sentiment-Kontrolle.Cos- yVoice 2.0 vergleicht sich mit der Vorgängerversion und reduziert die 30% auf...

Qwen-TTS ist ein Text-to-Speech-Tool (TTS), das vom Alibaba Cloud Qwen-Team entwickelt und über die Qwen-API bereitgestellt wird. Es wurde auf einem umfangreichen Sprachdatensatz trainiert und verfügt über eine natürliche und ausdrucksstarke Sprachausgabe, die automatisch Intonation, Sprechgeschwindigkeit und Emotionen anpasst.Qwen-TTS unterstützt Mandarin, Englisch und ...

Das Delayed-Streams-Modelling-Projekt von Kyutai Labs ist ein Open-Source-Framework für die Umwandlung von Sprache in Text, dessen Kern auf der Delayed-Stream-Modelling-Technologie (DSM) basiert. Es unterstützt Echtzeit-Sprache-zu-Text- (STT) und Text-zu-Sprache- (TTS) Funktionen, die für die Entwicklung effizienter Sprachinteraktionsanwendungen geeignet sind. Das Projekt bietet P...

AIVocal ist eine kostenlose KI-Audioverarbeitungsplattform, die Text-to-Speech (TTS), Speech-to-Text (STT), menschliche Sprachseparation und Podcast-Erzeugung bietet. Benutzer können es ohne Registrierung verwenden, und es unterstützt 24 Sprachen und mehr als 900 natürliche Töne, die für die Produktion von Podcasts, Hörbüchern, Video-Synchronisation und so weiter geeignet ist. Die Oberfläche der Plattform ist intuitiv und...

SuperMaker AI ist eine kostenlose Online-Authoring-Plattform, mit der Benutzer schnell hochwertige Video-, Musik-, Bild- und Sprachinhalte erstellen können. Die Nutzer können die Kernfunktionen ohne Anmeldung ausprobieren. Die Plattform ist einfach zu bedienen und eignet sich daher für Einzelkünstler und kleine Teams. Die Plattform nutzt die Technologie der künstlichen Intelligenz, um Text, Bilder oder kreative Ideen in professionelle Inhalte umzuwandeln, mit...

Muyan-TTS ist ein Open-Source-Text-to-Speech-Modell (TTS), das für Podcasting-Szenarien entwickelt wurde. Es wurde mit über 100.000 Stunden Podcast-Audiodaten trainiert und unterstützt die Null-Sample-Sprachsynthese, um qualitativ hochwertige natürliche Sprache zu erzeugen. Das Modell basiert auf Llama-3.2-3B und bietet in Kombination mit dem SoVITS-Decoder eine effiziente...

Kimi-Audio ist ein Open-Source-Audiobasismodell, das von Moonshot AI entwickelt wurde und sich auf das Verstehen, die Erzeugung und den Dialog von Audio konzentriert. Es unterstützt eine breite Palette von Audioverarbeitungsaufgaben wie Spracherkennung, Audio-Q&A und Sprach-Emotionserkennung. Das Modell wurde mit über 13 Millionen Stunden Audiodaten trainiert und mit einer innovativen hybriden Architektur kombiniert, die...

Audibit ist ein Open-Source-Projekt, die Kernfunktion ist es, Hacker News, TechCrunch und andere populäre Technologie-Artikel automatisch in Audio-Podcasts verwandelt, so dass die Nutzer in der pendeln, Fitness, oder beschäftigt, wenn das Hören von Informationen über das Web oder Handy. Das Projekt verwendet Next.js und React, um das Front-End zu entwickeln, kombiniert mit ...
zurück zum Anfang

