Zugang aus Übersee: www.kdjingpai.com

Ctrl + D Lesezeichen für diese Seite

AI Text-to-Speech

 Website einreichen

VibeVoice-1.5B: Ein Spracherzeugungsmodell für lange Audio-Mehrsprachendialoge von Microsoft
VibeVoice-1.5B ist ein innovatives Open-Source Text-to-Speech (TTS) Modell, das von Microsoft Research veröffentlicht wurde. Es wurde speziell für die Erzeugung von ausdrucksstarken, langen Dialogen mit mehreren Zeichen entwickelt, z. B. für Podcasts oder Hörbücher. Die Kerninnovation von VibeVoice ist die Verwendung eines 7...
08-27 4.3 K2Gelobt
Kitten-TTS-Server: Ein selbstentwickelbarer, leichtgewichtiger Text-to-Speech-Dienst
Kitten-TTS-Server ist ein Open-Source-Projekt, das einen funktionserweiterten Server für das leichtgewichtige KittenTTS-Modell bereitstellt. Benutzer können dieses Projekt nutzen, um ihren eigenen Text-to-Speech (TTS) Dienst zu erstellen. Der Hauptvorteil dieses Projekts ist, dass es auf dem ursprünglichen Modell basiert und eine intuitive Webseite hinzufügt ...
08-09 3.6 K0Gelobt
KittenTTS: Ein leichtgewichtiges Text-to-Speech-Modell
KittenTTS ist ein Open-Source-Text-to-Speech (TTS)-Modell, das auf Leichtigkeit und Effizienz ausgerichtet ist. Es benötigt weniger als 25 MB Speicherplatz, hat etwa 15 Millionen Parameter und läuft auf Low-End-Geräten ohne GPU-Unterstützung.KittenTTS wurde vom KittenML-Team entwickelt und bietet mehrere...
08-06 2.7 K0Gelobt
OpusLM_7B_Anneal: ein effizientes einheitliches Modell für Spracherkennung und -synthese
OpusLM_7B_Anneal ist ein Open-Source-Sprachverarbeitungsmodell, das vom ESPnet-Team entwickelt und auf der Hugging Face-Plattform gehostet wird. Es konzentriert sich auf eine Vielzahl von Aufgaben wie Spracherkennung, Text-to-Speech, Sprachübersetzung und Sprachverbesserung und eignet sich für Forscher und Entwickler zum Experimentieren und zur Anwendung im Bereich der Sprachverarbeitung. Das Modell basiert auf...
08-01 1.5 K0Gelobt
MOSS-TTSD: Open-Source-Sprachgenerierungswerkzeug für zweisprachige Dialoge
MOSS-TTSD ist ein Open-Source-Modell zur Erzeugung von Dialogsprache, das chinesische und englische Zweisprachigkeit unterstützt. Es kann Zwei-Personen-Dialogtext in natürliche und ausdrucksstarke Sprache umwandeln, die sich für die Produktion von KI-Podcasts, Sprachforschung und andere Szenarien eignet. Das Modell basiert auf einer Kodierungstechnologie mit niedriger Bitrate und unterstützt das Klonen von Zwei-Personen-Sprache ohne Proben und die Erzeugung von Einzelsprache bis zu 960 Sekunden...
07-31 2.2 K0Gelobt
FineShare: ein Authoring-Tool zur Erzeugung von KI-Stimme und -Musik
FineShare ist eine Plattform, die sich auf KI-Audio- und -Videotechnologie konzentriert und eine Vielzahl von Tools anbietet, mit denen Nutzer hochwertige Sprach-, Musik- und Videoinhalte erstellen können. Zu den Kernprodukten der Website gehören FineVoice, Singify und FineCam für die Spracherzeugung und -konvertierung, die KI-Musikproduktion und die virtuelle Kamera...
07-29 1.9 K0Gelobt
CyberSmart: Umwandlung von Text in Sprache und Digital Human Video
Xunfei Zhizuo ist eine von Xunfei entwickelte Plattform, die Dienste zur Erstellung von Inhalten mit künstlicher Intelligenz anbietet. Ihre Kernfunktion besteht darin, vom Benutzer eingegebenen Text in Sprache umzuwandeln, ein Prozess, der oft als “KI-Synchronisation” oder “Sprachsynthese” bezeichnet wird. Die Benutzer können aus einer Vielzahl vorprogrammierter virtueller Stimmen (d. h. “Moderatoren”) mit verschiedenen Stilen wählen, wie z. B. Nachrichtensendungen...
07-27 2.0 K0Gelobt
ListenHub: ein Tool zur schnellen Umwandlung von Webseiten und Dokumenten in AI-Podcasts
ListenHub ist eine Plattform, die mit Hilfe künstlicher Intelligenz Webseiten, Dokumente oder Benutzereingaben schnell in Podcasts umwandelt. Sie unterstützt chinesische und englische Sprachsynthese, und die Nutzer können durch einfaches Hochladen einer Datei, Eingeben eines Themas oder Einfügen eines Links natürliche und flüssige Podcast-Audios erzeugen. Die Plattform ist einfach zu bedienen und eignet sich für die mobile Nutzung, so dass die Nutzer sie bequem während des Pendelns, beim Sport oder in der Freizeit empfangen können...
07-27 2.6 K0Gelobt
Higgs Audio: ein Open-Source-Tool zur Erzeugung hochwertiger Sprache und Dialoge mit mehreren Charakteren
Higgs Audio ist ein von Boson AI entwickeltes Open-Source-Text-to-Speech (TTS)-Projekt, das sich auf die Erzeugung von qualitativ hochwertiger, emotionsgeladener Sprache und Dialogen mit mehreren Zeichen konzentriert. Das Projekt basiert auf über 10 Millionen Stunden Audiodaten-Training und unterstützt das Klonen von Null-Sample-Sprache, die Erzeugung natürlicher Dialoge und die mehrsprachige Sprachausgabe.Higgs A...
07-25 3.8 K0Gelobt
Parrot TTS: ein Lesetool, das Webtexte in natürliche Sprache umwandelt
Parrot TTS ist eine Chrome-Erweiterung, die Webtext in natürliche Sprache umwandelt. Es verwendet fortschrittliche KI-Technologie, um eine fast menschliche Stimme zu bieten, die das Problem der traditionellen Text-to-Speech-Tools löst, die mechanisch klingen. Benutzer können Artikel, Nachrichten oder Forschungsmaterialien mit einem Klick in Audio konvertieren, geeignet für Multitasking...
07-24 1.6 K0Gelobt
AIdeaFlow Podcast: ein Werkzeug, um Text schnell in professionelle Podcast-Audios zu verwandeln
AIdeaFlow Podcast ist eine KI-basierte Plattform zur Erstellung von Podcasts, mit der Benutzer Textinhalte schnell in hochwertige Podcasts umwandeln können. Sie unterstützt mehrere Sprachen und über 120 einzigartige Stimmen für Studenten, Fachleute und Inhaltsersteller. Benutzer geben einfach Text ein oder laden ein Skript hoch, und die Plattform generiert automatisch ein natürliches...
07-20 1.4 K0Gelobt
CosyVoice: Ali quelloffenes mehrsprachiges Klon- und Generierungswerkzeug
CosyVoice ist ein quelloffenes, mehrsprachiges Spracherzeugungsmodell, das sich auf hochwertige Text-to-Speech-Technologie (TTS) konzentriert. Es unterstützt die Sprachsynthese in mehreren Sprachen und bietet Funktionen wie Zero-Sample-Sprachgenerierung, sprachübergreifendes Sprachklonen und feinkörnige Sentiment-Kontrolle.Cos- yVoice 2.0 vergleicht sich mit der Vorgängerversion und reduziert die 30% auf...
07-09 3.2 K0Gelobt
Qwen-TTS: Ein Sprachsynthesewerkzeug mit chinesischem Dialekt und zweisprachiger Unterstützung
Qwen-TTS ist ein Text-to-Speech-Tool (TTS), das vom Alibaba Cloud Qwen-Team entwickelt und über die Qwen-API bereitgestellt wird. Es wurde auf einem umfangreichen Sprachdatensatz trainiert und verfügt über eine natürliche und ausdrucksstarke Sprachausgabe, die automatisch Intonation, Sprechgeschwindigkeit und Emotionen anpasst.Qwen-TTS unterstützt Mandarin, Englisch und ...
07-05 3.8 K0Gelobt
Kyutai: Werkzeug zur Umwandlung von Sprache in Text in Echtzeit
Das Delayed-Streams-Modelling-Projekt von Kyutai Labs ist ein Open-Source-Framework für die Umwandlung von Sprache in Text, dessen Kern auf der Delayed-Stream-Modelling-Technologie (DSM) basiert. Es unterstützt Echtzeit-Sprache-zu-Text- (STT) und Text-zu-Sprache- (TTS) Funktionen, die für die Entwicklung effizienter Sprachinteraktionsanwendungen geeignet sind. Das Projekt bietet P...
07-05 3.6 K1Gelobt
AIVocal: ein kostenloses KI-Tool zur Erstellung von Podcasts und zur Audiobearbeitung
AIVocal ist eine kostenlose KI-Audioverarbeitungsplattform, die Text-to-Speech (TTS), Speech-to-Text (STT), menschliche Sprachseparation und Podcast-Erzeugung bietet. Benutzer können es ohne Registrierung verwenden, und es unterstützt 24 Sprachen und mehr als 900 natürliche Töne, die für die Produktion von Podcasts, Hörbüchern, Video-Synchronisation und so weiter geeignet ist. Die Oberfläche der Plattform ist intuitiv und...
06-27 2.5 K0Gelobt
SuperMaker AI: kostenloses Authoring-Tool zur Erstellung von Videos, Musik und Bildern
SuperMaker AI ist eine kostenlose Online-Authoring-Plattform, mit der Benutzer schnell hochwertige Video-, Musik-, Bild- und Sprachinhalte erstellen können. Die Nutzer können die Kernfunktionen ohne Anmeldung ausprobieren. Die Plattform ist einfach zu bedienen und eignet sich daher für Einzelkünstler und kleine Teams. Die Plattform nutzt die Technologie der künstlichen Intelligenz, um Text, Bilder oder kreative Ideen in professionelle Inhalte umzuwandeln, mit...
06-11 2.7 K0Gelobt
Muyan-TTS: Personalisiertes Podcast-Sprachtraining und -synthese
Muyan-TTS ist ein Open-Source-Text-to-Speech-Modell (TTS), das für Podcasting-Szenarien entwickelt wurde. Es wurde mit über 100.000 Stunden Podcast-Audiodaten trainiert und unterstützt die Null-Sample-Sprachsynthese, um qualitativ hochwertige natürliche Sprache zu erzeugen. Das Modell basiert auf Llama-3.2-3B und bietet in Kombination mit dem SoVITS-Decoder eine effiziente...
05-06 2.9 K0Gelobt
Kimi-Audio: Open-Source-Audioverarbeitung und Dialogbasis-Modell
Kimi-Audio ist ein Open-Source-Audiobasismodell, das von Moonshot AI entwickelt wurde und sich auf das Verstehen, die Erzeugung und den Dialog von Audio konzentriert. Es unterstützt eine breite Palette von Audioverarbeitungsaufgaben wie Spracherkennung, Audio-Q&A und Sprach-Emotionserkennung. Das Modell wurde mit über 13 Millionen Stunden Audiodaten trainiert und mit einer innovativen hybriden Architektur kombiniert, die...
05-05 4.3 K0Gelobt
Audibit: Umwandlung beliebter technischer Artikel in anhörbare Audio-Podcasts
Audibit ist ein Open-Source-Projekt, die Kernfunktion ist es, Hacker News, TechCrunch und andere populäre Technologie-Artikel automatisch in Audio-Podcasts verwandelt, so dass die Nutzer in der pendeln, Fitness, oder beschäftigt, wenn das Hören von Informationen über das Web oder Handy. Das Projekt verwendet Next.js und React, um das Front-End zu entwickeln, kombiniert mit ...
05-05 2.1 K0Gelobt