VibeVoice-1.5B是微软研究院发布的一款前沿的开源文本转语音(Text-to-Speech, TTS)模型。 它专门用于生成富有表现力的、长篇幅的、多角色对话音频,例如播客或有声读物。 VibeVoice的核心创新在于它使用了以7...
Kitten-TTS-Server ist ein Open-Source-Projekt, das einen funktionserweiterten Server für das leichtgewichtige KittenTTS-Modell bereitstellt. Benutzer können dieses Projekt verwenden, um ihre eigenen Text-to-Speech (TTS) Dienste zu erstellen. Der Hauptvorteil dieses Projekts besteht darin, dass es auf dem ursprünglichen Modell basiert und eine ...
KittenTTS ist ein Open-Source-Text-to-Speech (TTS)-Modell, das auf Leichtigkeit und Effizienz ausgerichtet ist. Es benötigt weniger als 25 MB Speicherplatz, hat etwa 15 Millionen Parameter und läuft auf Low-End-Geräten ohne GPU-Unterstützung.KittenTTS wurde vom KittenML-Team entwickelt und bietet mehrere...
OpusLM_7B_Anneal ist ein Open-Source-Sprachverarbeitungsmodell, das vom ESPnet-Team entwickelt und auf der Hugging Face-Plattform gehostet wird. Es konzentriert sich auf eine Vielzahl von Aufgaben wie Spracherkennung, Text-zu-Sprache, Sprachübersetzung und Sprachverbesserung und ist für Forscher und Entwickler geeignet, um im Bereich der Sprachverarbeitung zu experimentieren und anzuwenden. Das Modell .....
MOSS-TTSD ist ein Open-Source-Modell zur Erzeugung von Dialogsprache, das chinesische und englische Zweisprachigkeit unterstützt. Es kann Zwei-Personen-Dialogtext in natürliche und ausdrucksstarke Sprache umwandeln, geeignet für AI-Podcast-Produktion, Sprachforschung und andere Szenarien. Das Modell basiert auf einer Kodierungstechnologie mit niedriger Bitrate und unterstützt das Klonen von Zwei-Personen-Sprache ohne...
FineShare ist eine Plattform, die sich auf KI-Audio- und -Videotechnologie konzentriert und eine Vielzahl von Tools anbietet, mit denen Nutzer hochwertige Sprach-, Musik- und Videoinhalte erstellen können. Zu den Kernprodukten der Website gehören FineVoice, Singify und FineCam für die Spracherzeugung und -konvertierung, die KI-Musikproduktion und die virtuelle Kamera...
Xunfei Zhizuo ist eine von Xunfei entwickelte Plattform, die Dienste zur Erstellung von Inhalten mit künstlicher Intelligenz anbietet. Ihre Kernfunktion besteht darin, vom Benutzer eingegebenen Text in Sprache umzuwandeln, ein Prozess, der oft als "KI-Synchronisation" oder "Sprachsynthese" bezeichnet wird. Die Benutzer können aus einer Reihe von voreingestellten virtuellen Stimmen (d. h. "Ankern") wählen...
ListenHub ist eine Plattform, die mit Hilfe künstlicher Intelligenz Webseiten, Dokumente oder Benutzereingaben schnell in Podcasts umwandelt. Sie unterstützt chinesische und englische Sprachsynthese, und Benutzer können durch einfaches Hochladen einer Datei, Eingeben eines Themas oder Einfügen eines Links natürliche und flüssige Podcast-Audios erzeugen. Die Plattform ist einfach zu bedienen und für die mobile Nutzung geeignet...
Higgs Audio ist ein Open-Source-Projekt für Text-to-Speech (TTS), das von Boson AI entwickelt wurde und sich auf die Erzeugung von qualitativ hochwertiger, emotionsgeladener Sprache und Dialogen mit mehreren Zeichen konzentriert. Das Projekt basiert auf über 10 Millionen Stunden Audiodatentraining und unterstützt das Klonen von Null-Sample-Sprache, die Erzeugung natürlicher Dialoge und die mehrsprachige Sprachausgabe....
Parrot TTS ist eine Chrome-Erweiterung, die Webtext in natürliche Sprache umwandelt. Es verwendet fortschrittliche KI-Technologie, um eine fast menschliche Stimme zu bieten, die das Problem der traditionellen Text-to-Speech-Tools löst, die mechanisch klingen. Benutzer können Artikel, Nachrichten oder Forschungsmaterialien mit einem Klick umwandeln...
AIdeaFlow Podcast ist eine KI-basierte Plattform zur Erstellung von Podcasts, mit der Nutzer Textinhalte schnell in hochwertige Podcasts umwandeln können. Es unterstützt mehrere Sprachen und über 120 einzigartige Stimmen für Studenten, Fachleute und Content-Ersteller. Benutzer geben einfach Text ein oder laden ein Skript hoch,...
CosyVoice ist ein quelloffenes, mehrsprachiges Spracherzeugungsmodell mit Schwerpunkt auf hochwertiger Text-to-Speech (TTS)-Technologie. Es unterstützt die Sprachsynthese in mehreren Sprachen und bietet Funktionen wie Null-Sample-Sprachgenerierung, sprachübergreifendes Sprachklonen und feinkörnige Sentiment-Kontrolle.Cos- yVoice 2.0 vergleicht die Vorgängerversion...
Qwen-TTS ist ein Text-to-Speech-Tool (TTS), das vom Alibaba Cloud Qwen-Team entwickelt und über die Qwen-API bereitgestellt wird. Es wurde auf einem umfangreichen Sprachdatensatz trainiert und bietet eine natürliche und ausdrucksstarke Sprachausgabe, die automatisch Intonation, Sprechgeschwindigkeit und Emotionen anpasst....
Das Delayed-Streams-Modelling-Projekt von Kyutai Labs ist ein Open-Source-Framework für die Umwandlung von Sprache in Text, dessen Kern auf der Delayed-Stream-Modelling-Technologie (DSM) basiert. Es unterstützt Echtzeit-Sprache-zu-Text- (STT) und Text-zu-Sprache- (TTS) Funktionen, die für die Entwicklung effizienter Sprachinteraktionsanwendungen geeignet sind. Das Projekt bietet P...
AIVocal ist eine kostenlose KI-Audioverarbeitungsplattform, die Text-to-Speech (TTS), Speech-to-Text (STT), menschliche Sprachseparation und Podcast-Erzeugung bietet. Benutzer können es ohne Registrierung verwenden, und es unterstützt 24 Sprachen und mehr als 900 natürliche Töne, die für die Produktion von Podcasts, Hörbüchern, Video-Synchronisation und so weiter geeignet ist....
SuperMaker AI ist eine kostenlose Online-Authoring-Plattform, mit der Benutzer schnell hochwertige Video-, Musik-, Bild- und Sprachinhalte erstellen können. Die Benutzer können die Kernfunktionen ohne Anmeldung ausprobieren. Die Anwendung ist einfach und eignet sich daher für einzelne Autoren und kleine Teams. Die Plattform nutzt die Technologie der künstlichen Intelligenz zur Erstellung von Texten, Bildern oder...
Muyan-TTS ist ein Open-Source-Text-to-Speech-Modell (TTS), das für Podcasting-Szenarien entwickelt wurde. Es wurde mit über 100.000 Stunden Podcast-Audiodaten trainiert und unterstützt die Null-Sample-Sprachsynthese, um qualitativ hochwertige natürliche Sprache zu erzeugen. Das Modell basiert auf Llama-3.2-3B, und in Kombination mit dem SoVITS-Decoder bietet es eine hohe...
Kimi-Audio ist ein Open-Source-Audiobasismodell, das von Moonshot AI entwickelt wurde und sich auf das Verstehen, die Erzeugung und den Dialog von Audio konzentriert. Es unterstützt eine breite Palette von Audio-Verarbeitung Aufgaben wie Spracherkennung, Audio-Q&A, und Sprache Emotion Anerkennung. Das Modell wurde mit über 13 Millionen Stunden Audiodaten vortrainiert, kombiniert mit innovativen...
Audibit ist ein Open-Source-Projekt, die Kernfunktion ist es, Hacker News, TechCrunch und andere populäre Technologie-Artikel automatisch in Audio-Podcasts verwandelt, so dass die Nutzer in der pendeln, Fitness, oder beschäftigt, wenn das Hören von Informationen über das Web oder Handy. Das Projekt verwendet Next.js und React, um das Front-End zu entwickeln, kombiniert mit ...
zurück zum Anfang