
VibeVoice-1.5B: Ein Spracherzeugungsmodell für lange Audio-Mehrsprachendialoge von Microsoft
VibeVoice-1.5B ist ein innovatives Open-Source Text-to-Speech (TTS) Modell, das von Microsoft Research veröffentlicht wurde. Es wurde speziell für die Erzeugung von ausdrucksstarken, langen Dialogen mit mehreren Zeichen entwickelt, z. B. für Podcasts oder Hörbücher. Die Kerninnovation von VibeVoice ist die Verwendung eines 7...

MiniMax veröffentlicht Speech 2.5: Sprachsynthesetechnologie bringt Durchbruch bei Mehrsprachigkeit und Tonwiedergabe
Am 7. August kündigte MiniMax sein Sprachgenerierungsmodell der nächsten Generation, Speech 2.5, an, das nach offiziellen Angaben seinen Vorgänger Speech 02 in Bezug auf die mehrsprachige Ausdruckskraft, die Genauigkeit der Klangfarbenwiedergabe und die Anzahl der unterstützten Sprachen verbessert. Im Bereich der durch künstliche Intelligenz generierten Inhalte (AIGC) ist der Text...

KittenTTS: Ein leichtgewichtiges Text-to-Speech-Modell
KittenTTS ist ein Open-Source-Text-to-Speech (TTS)-Modell, das auf Leichtigkeit und Effizienz ausgerichtet ist. Es benötigt weniger als 25 MB Speicherplatz, hat etwa 15 Millionen Parameter und läuft auf Low-End-Geräten ohne GPU-Unterstützung.KittenTTS wurde vom KittenML-Team entwickelt und bietet mehrere...

SongGeneration: ein quelloffenes KI-Modell zur Erzeugung hochwertiger Musik und Liedtexte
SongGeneration ist ein Musikgenerierungsmodell, das vom Tencent AI Lab entwickelt und freigegeben wurde. Es konzentriert sich auf die Generierung von qualitativ hochwertigen Songs, einschließlich Text, Begleitung und Gesang. Es basiert auf dem LeVo-Framework und kombiniert das Sprachmodell LeLM und Musik-Codecs, um die Songgenerierung in Englisch und Chinesisch zu unterstützen. Das Modell wurde mit einem Datensatz von einer Million Liedern trainiert und kann...

OpusLM_7B_Anneal: ein effizientes einheitliches Modell für Spracherkennung und -synthese
OpusLM_7B_Anneal ist ein Open-Source-Sprachverarbeitungsmodell, das vom ESPnet-Team entwickelt und auf der Hugging Face-Plattform gehostet wird. Es konzentriert sich auf eine Vielzahl von Aufgaben wie Spracherkennung, Text-to-Speech, Sprachübersetzung und Sprachverbesserung und eignet sich für Forscher und Entwickler zum Experimentieren und zur Anwendung im Bereich der Sprachverarbeitung. Das Modell basiert auf...

Magenta RealTime: ein Open-Source-Modell zur Erzeugung von Musik in Echtzeit
Magenta RealTime (kurz Magenta RT) ist ein von Google DeepMind entwickeltes Open-Source-Musikgenerierungsmodell, das sich auf die Erstellung von Musik in Echtzeit konzentriert. Es ist eine Open-Source-Version von Lyria RealTime, die die Erzeugung von hochwertigen Musikclips über Text- oder Audiohinweise unterstützt. Das Modell basiert auf 80...

MOSS-TTSD: Open-Source-Sprachgenerierungswerkzeug für zweisprachige Dialoge
MOSS-TTSD ist ein Open-Source-Modell zur Erzeugung von Dialogsprache, das chinesische und englische Zweisprachigkeit unterstützt. Es kann Zwei-Personen-Dialogtext in natürliche und ausdrucksstarke Sprache umwandeln, die sich für die Produktion von KI-Podcasts, Sprachforschung und andere Szenarien eignet. Das Modell basiert auf einer Kodierungstechnologie mit niedriger Bitrate und unterstützt das Klonen von Zwei-Personen-Sprache ohne Proben und die Erzeugung von Einzelsprache bis zu 960 Sekunden...

Higgs Audio: ein Open-Source-Tool zur Erzeugung hochwertiger Sprache und Dialoge mit mehreren Charakteren
Higgs Audio ist ein von Boson AI entwickeltes Open-Source-Text-to-Speech (TTS)-Projekt, das sich auf die Erzeugung von qualitativ hochwertiger, emotionsgeladener Sprache und Dialogen mit mehreren Zeichen konzentriert. Das Projekt basiert auf über 10 Millionen Stunden Audiodaten-Training und unterstützt das Klonen von Null-Sample-Sprache, die Erzeugung natürlicher Dialoge und die mehrsprachige Sprachausgabe.Higgs A...

Voxtral: ein von Mistral AI entwickeltes KI-Modell für die Transkription und das Verständnis von Sprache
Voxtral ist sein erstes offenes Audiomodell, das am 15. Juli 2025 vom französischen KI-Startup Mistral AI veröffentlicht wurde. Voxtral zielt darauf ab, kommerzielle Anwendungen mit Sprachverstehensfähigkeiten out-of-the-box für Produktionsumgebungen auszustatten, zu einem Preis, der auf dem Markt sehr wettbewerbsfähig ist. Es gibt zwei Versionen des Voxtral-Modells für die Produktion...

CosyVoice: Ali quelloffenes mehrsprachiges Klon- und Generierungswerkzeug
CosyVoice ist ein quelloffenes, mehrsprachiges Spracherzeugungsmodell, das sich auf hochwertige Text-to-Speech-Technologie (TTS) konzentriert. Es unterstützt die Sprachsynthese in mehreren Sprachen und bietet Funktionen wie Zero-Sample-Sprachgenerierung, sprachübergreifendes Sprachklonen und feinkörnige Sentiment-Kontrolle.Cos- yVoice 2.0 vergleicht sich mit der Vorgängerversion und reduziert die 30% auf...

Qwen-TTS: Ein Sprachsynthesewerkzeug mit chinesischem Dialekt und zweisprachiger Unterstützung
Qwen-TTS ist ein Text-to-Speech-Tool (TTS), das vom Alibaba Cloud Qwen-Team entwickelt und über die Qwen-API bereitgestellt wird. Es wurde auf einem umfangreichen Sprachdatensatz trainiert und verfügt über eine natürliche und ausdrucksstarke Sprachausgabe, die automatisch Intonation, Sprechgeschwindigkeit und Emotionen anpasst.Qwen-TTS unterstützt Mandarin, Englisch und ...

Kyutai: Werkzeug zur Umwandlung von Sprache in Text in Echtzeit
Das Delayed-Streams-Modelling-Projekt von Kyutai Labs ist ein Open-Source-Framework für die Umwandlung von Sprache in Text, dessen Kern auf der Delayed-Stream-Modelling-Technologie (DSM) basiert. Es unterstützt Echtzeit-Sprache-zu-Text- (STT) und Text-zu-Sprache- (TTS) Funktionen, die für die Entwicklung effizienter Sprachinteraktionsanwendungen geeignet sind. Das Projekt bietet P...

MiniMax Speech 02
Mit der kontinuierlichen Weiterentwicklung der KI-Technologien ist die personalisierte und sehr natürliche Sprachinteraktion zu einer Schlüsselanforderung für viele intelligente Anwendungen geworden. Bestehende Text-to-Speech (TTS)-Technologien stehen jedoch immer noch vor Herausforderungen, wenn es darum geht, personalisierte Töne in großem Umfang, eine mehrsprachige Abdeckung und einen äußerst realistischen Emotionsausdruck zu erreichen. Um diese Probleme der Branche zu lösen, hat MiniMax Speech...

Muyan-TTS: Personalisiertes Podcast-Sprachtraining und -synthese
Muyan-TTS ist ein Open-Source-Text-to-Speech-Modell (TTS), das für Podcasting-Szenarien entwickelt wurde. Es wurde mit über 100.000 Stunden Podcast-Audiodaten trainiert und unterstützt die Null-Sample-Sprachsynthese, um qualitativ hochwertige natürliche Sprache zu erzeugen. Das Modell basiert auf Llama-3.2-3B und bietet in Kombination mit dem SoVITS-Decoder eine effiziente...

Kimi-Audio: Open-Source-Audioverarbeitung und Dialogbasis-Modell
Kimi-Audio ist ein Open-Source-Audiobasismodell, das von Moonshot AI entwickelt wurde und sich auf das Verstehen, die Erzeugung und den Dialog von Audio konzentriert. Es unterstützt eine breite Palette von Audioverarbeitungsaufgaben wie Spracherkennung, Audio-Q&A und Sprach-Emotionserkennung. Das Modell wurde mit über 13 Millionen Stunden Audiodaten trainiert und mit einer innovativen hybriden Architektur kombiniert, die...

Orpheus-TTS: Ein Text-to-Speech-Werkzeug zur Erzeugung natürlicher chinesischer Sprache
Orpheus-TTS ist ein quelloffenes Text-to-Speech (TTS)-System, das auf der Llama-3b-Architektur entwickelt wurde, mit dem Ziel, Audio zu erzeugen, das der natürlichen menschlichen Sprache nahe kommt. Es wird vom Canopy AI-Team entwickelt und unterstützt mehrere Sprachen wie Englisch, Spanisch, Französisch, Deutsch, Italienisch, Portugiesisch und Chinesisch. Das System kann...

MegaTTS3: Ein leichtgewichtiges Modell zur Synthese von chinesischer und englischer Sprache
MegaTTS3 ist ein Open-Source-Sprachsynthese-Tool, das von ByteDance in Zusammenarbeit mit der Zhejiang University entwickelt wurde und sich auf die Erzeugung hochwertiger chinesischer und englischer Sprache konzentriert. Sein Kernmodell ist nur 0,45B Parameter, leicht und effizient, Unterstützung für gemischte chinesische und englische Sprache Generation und Sprache Klonen. Das Projekt wird auf GitHub gehostet und bietet Code und vortrainierte Modelle zum kostenlosen Download...

IndexTTS: Text-to-Speech-Tool mit Unterstützung für Chinesisch-Englisch-Mischung
IndexTTS ist ein Open-Source-Tool für Text-to-Speech (TTS), das auf GitHub gehostet und vom index-tts-Team entwickelt wird. Es basiert auf XTTS und Tortoise-Technologien und bietet eine effiziente und qualitativ hochwertige Sprachsynthese durch ein verbessertes Moduldesign.IndexTTS verwendet zehntausende von...

AssemblyAI: Hochpräzise Sprache-zu-Text- und Audio Intelligence-Analyseplattform
AssemblyAI ist eine Plattform, die sich auf Sprach-KI-Technologie konzentriert und Entwicklern und Unternehmen effiziente Sprache-zu-Text- und Audio-Analyse-Tools zur Verfügung stellt. Sein Kern Highlight ist die Universal-Familie von Modellen, insbesondere die neu veröffentlichte Universal-2, die AssemblyAIs fortschrittlichste Sprache-zu-Text...
zurück zum Anfang