VibeVoice-1.5B: Ein Spracherzeugungsmodell für lange Audio-Mehrsprachendialoge von Microsoft
VibeVoice-1.5B是微软研究院发布的一款前沿的开源文本转语音(Text-to-Speech, TTS)模型。 它专门用于生成富有表现力的、长篇幅的、多角色对话音频,例如播客或有声读物。 VibeVoice的核心创新在于它使用了以7...
MiniMax veröffentlicht Speech 2.5: Sprachsynthesetechnologie bringt Durchbruch bei Mehrsprachigkeit und Tonwiedergabe
Am 7. August kündigte MiniMax sein Sprachgenerierungsmodell der nächsten Generation, Speech 2.5, an, das nach offiziellen Angaben seinen Vorgänger Speech 02 in Bezug auf die mehrsprachige Ausdruckskraft, die Genauigkeit der Klangfarbenwiedergabe und die Anzahl der unterstützten Sprachen verbessert. Im Bereich der durch künstliche Intelligenz erzeugten Inhalte (AIGC)...
KittenTTS: Ein leichtgewichtiges Text-to-Speech-Modell
KittenTTS ist ein Open-Source-Text-to-Speech (TTS)-Modell, das auf Leichtigkeit und Effizienz ausgerichtet ist. Es benötigt weniger als 25 MB Speicherplatz, hat etwa 15 Millionen Parameter und läuft auf Low-End-Geräten ohne GPU-Unterstützung.KittenTTS wurde vom KittenML-Team entwickelt und bietet mehrere...
SongGeneration: ein quelloffenes KI-Modell zur Erzeugung hochwertiger Musik und Liedtexte
SongGeneration ist ein Musikgenerierungsmodell, das vom Tencent AI Lab entwickelt und freigegeben wurde. Es konzentriert sich auf die Generierung von qualitativ hochwertigen Songs, einschließlich Text, Begleitung und Gesang. Es basiert auf dem LeVo-Framework und kombiniert das Sprachmodell LeLM und Musik-Codecs, um die Songgenerierung in Englisch und Chinesisch zu unterstützen. Das Modell basiert auf einem Datensatz von Millionen von Liedern...
OpusLM_7B_Anneal: ein effizientes einheitliches Modell für Spracherkennung und -synthese
OpusLM_7B_Anneal ist ein Open-Source-Sprachverarbeitungsmodell, das vom ESPnet-Team entwickelt und auf der Hugging Face-Plattform gehostet wird. Es konzentriert sich auf eine Vielzahl von Aufgaben wie Spracherkennung, Text-zu-Sprache, Sprachübersetzung und Sprachverbesserung und ist für Forscher und Entwickler geeignet, um im Bereich der Sprachverarbeitung zu experimentieren und anzuwenden. Das Modell .....
Magenta RealTime: ein Open-Source-Modell zur Erzeugung von Musik in Echtzeit
Magenta RealTime (kurz Magenta RT) ist ein von Google DeepMind entwickeltes Open-Source-Musikgenerierungsmodell, das sich auf die Erstellung von Musik in Echtzeit konzentriert. Es ist eine Open-Source-Version von Lyria RealTime, die die Erzeugung von hochwertigen Musikclips über Text- oder Audiohinweise unterstützt. Das Modell basiert auf 80...
MOSS-TTSD: Open-Source-Sprachgenerierungswerkzeug für zweisprachige Dialoge
MOSS-TTSD ist ein Open-Source-Modell zur Erzeugung von Dialogsprache, das chinesische und englische Zweisprachigkeit unterstützt. Es kann Zwei-Personen-Dialogtext in natürliche und ausdrucksstarke Sprache umwandeln, geeignet für AI-Podcast-Produktion, Sprachforschung und andere Szenarien. Das Modell basiert auf einer Kodierungstechnologie mit niedriger Bitrate und unterstützt das Klonen von Zwei-Personen-Sprache ohne...
Higgs Audio: ein Open-Source-Tool zur Erzeugung hochwertiger Sprache und Dialoge mit mehreren Charakteren
Higgs Audio ist ein Open-Source-Projekt für Text-to-Speech (TTS), das von Boson AI entwickelt wurde und sich auf die Erzeugung von qualitativ hochwertiger, emotionsgeladener Sprache und Dialogen mit mehreren Zeichen konzentriert. Das Projekt basiert auf über 10 Millionen Stunden Audiodatentraining und unterstützt das Klonen von Null-Sample-Sprache, die Erzeugung natürlicher Dialoge und die mehrsprachige Sprachausgabe....
Voxtral: ein von Mistral AI entwickeltes KI-Modell für die Transkription und das Verständnis von Sprache
Voxtral ist sein erstes offenes Audiomodell, das am 15. Juli 2025 vom französischen KI-Startup Mistral AI veröffentlicht wurde. Voxtral zielt darauf ab, kommerzielle Anwendungen mit Sprachverstehensfähigkeiten out-of-the-box für Produktionsumgebungen auszustatten, zu einem Preis, der auf dem Markt sehr wettbewerbsfähig ist. Das Voxtral-Modell ist in zwei Versionen für .... erhältlich
CosyVoice: Ali quelloffenes mehrsprachiges Klon- und Generierungswerkzeug
CosyVoice ist ein quelloffenes, mehrsprachiges Spracherzeugungsmodell mit Schwerpunkt auf hochwertiger Text-to-Speech (TTS)-Technologie. Es unterstützt die Sprachsynthese in mehreren Sprachen und bietet Funktionen wie Null-Sample-Sprachgenerierung, sprachübergreifendes Sprachklonen und feinkörnige Sentiment-Kontrolle.Cos- yVoice 2.0 vergleicht die Vorgängerversion...
Qwen-TTS: Ein Sprachsynthesewerkzeug mit chinesischem Dialekt und zweisprachiger Unterstützung
Qwen-TTS ist ein Text-to-Speech-Tool (TTS), das vom Alibaba Cloud Qwen-Team entwickelt und über die Qwen-API bereitgestellt wird. Es wurde auf einem umfangreichen Sprachdatensatz trainiert und bietet eine natürliche und ausdrucksstarke Sprachausgabe, die automatisch Intonation, Sprechgeschwindigkeit und Emotionen anpasst....
Kyutai: Werkzeug zur Umwandlung von Sprache in Text in Echtzeit
Das Delayed-Streams-Modelling-Projekt von Kyutai Labs ist ein Open-Source-Framework für die Umwandlung von Sprache in Text, dessen Kern auf der Delayed-Stream-Modelling-Technologie (DSM) basiert. Es unterstützt Echtzeit-Sprache-zu-Text- (STT) und Text-zu-Sprache- (TTS) Funktionen, die für die Entwicklung effizienter Sprachinteraktionsanwendungen geeignet sind. Das Projekt bietet P...
MiniMax Speech 02
Mit der kontinuierlichen Weiterentwicklung der KI-Technologien ist die personalisierte und sehr natürliche Sprachinteraktion zu einer Schlüsselanforderung für viele intelligente Anwendungen geworden. Bestehende Text-to-Speech (TTS)-Technologien stehen jedoch immer noch vor der Herausforderung, personalisierte Töne in großem Maßstab, eine mehrsprachige Abdeckung und einen äußerst realistischen Emotionsausdruck zu erreichen. Um diese Probleme zu lösen...
Muyan-TTS: Personalisiertes Podcast-Sprachtraining und -synthese
Muyan-TTS ist ein Open-Source-Text-to-Speech-Modell (TTS), das für Podcasting-Szenarien entwickelt wurde. Es wurde mit über 100.000 Stunden Podcast-Audiodaten trainiert und unterstützt die Null-Sample-Sprachsynthese, um qualitativ hochwertige natürliche Sprache zu erzeugen. Das Modell basiert auf Llama-3.2-3B, und in Kombination mit dem SoVITS-Decoder bietet es eine hohe...
Kimi-Audio: Open-Source-Audioverarbeitung und Dialogbasis-Modell
Kimi-Audio ist ein Open-Source-Audiobasismodell, das von Moonshot AI entwickelt wurde und sich auf das Verstehen, die Erzeugung und den Dialog von Audio konzentriert. Es unterstützt eine breite Palette von Audio-Verarbeitung Aufgaben wie Spracherkennung, Audio-Q&A, und Sprache Emotion Anerkennung. Das Modell wurde mit über 13 Millionen Stunden Audiodaten vortrainiert, kombiniert mit innovativen...
Orpheus-TTS: Ein Text-to-Speech-Werkzeug zur Erzeugung natürlicher chinesischer Sprache
Orpheus-TTS ist ein quelloffenes Text-to-Speech (TTS)-System, das auf der Llama-3b-Architektur entwickelt wurde, mit dem Ziel, Audio zu erzeugen, das der natürlichen menschlichen Sprache nahe kommt. Es wird vom Canopy AI-Team entwickelt und unterstützt mehrere Sprachen wie Englisch, Spanisch, Französisch, Deutsch, Italienisch, Portugiesisch und Chinesisch...
MegaTTS3: Ein leichtgewichtiges Modell zur Synthese von chinesischer und englischer Sprache
MegaTTS3 ist ein Open-Source-Sprachsynthese-Tool, das von ByteDance in Zusammenarbeit mit der Zhejiang University entwickelt wurde und sich auf die Erzeugung hochwertiger chinesischer und englischer Sprache konzentriert. Sein Kernmodell ist nur 0,45B Parameter, leicht und effizient, Unterstützung für gemischte chinesische und englische Sprache Generation und Sprache Klonen. Das Projekt ist auf GitHub gehostet und bietet Code und...
IndexTTS: Text-to-Speech-Tool mit Unterstützung für Chinesisch-Englisch-Mischung
IndexTTS ist ein Open-Source-Tool für Text-to-Speech (TTS), das auf GitHub gehostet und vom index-tts-Team entwickelt wird. Es basiert auf XTTS und Tortoise-Technologien und bietet eine effiziente und qualitativ hochwertige Sprachsynthese durch ein verbessertes Moduldesign.IndexTTS verwendet zehntausende von...
AssemblyAI: Hochpräzise Sprache-zu-Text- und Audio Intelligence-Analyseplattform
AssemblyAI ist eine Plattform, die sich auf Sprach-KI-Technologie konzentriert und Entwicklern und Unternehmen effiziente Sprache-zu-Text- und Audio-Analyse-Tools zur Verfügung stellt. Sein Kern Highlight ist die Universal-Familie von Modellen, insbesondere die neu veröffentlichte Universal-2, die AssemblyAIs fortschrittlichste Sprache-zu-Text...
zurück zum Anfang