
VibeVoice-1.5B: Ein Spracherzeugungsmodell für lange Audio-Mehrsprachendialoge von Microsoft
VibeVoice-1.5B ist ein innovatives Open-Source Text-to-Speech (TTS) Modell, das von Microsoft Research veröffentlicht wurde. Es wurde speziell für die Erzeugung von ausdrucksstarken, langen Dialogen mit mehreren Zeichen entwickelt, z. B. für Podcasts oder Hörbücher. Die Kerninnovation von VibeVoice ist die Verwendung eines 7...

MiniMax veröffentlicht Speech 2.5: Sprachsynthesetechnologie bringt Durchbruch bei Mehrsprachigkeit und Tonwiedergabe
8月7日,MiniMax 公司发布了其新一代语音生成模型 Speech 2.5。据官方资料显示,该模型在前代 Speech 02 的基础上,于多语种表现力、音色复刻精度以及支持的语种数量上实现了提升。 在人工智能生成内容(AIGC)领域,文...

KittenTTS: Ein leichtgewichtiges Text-to-Speech-Modell
KittenTTS ist ein Open-Source-Text-to-Speech (TTS)-Modell, das auf Leichtigkeit und Effizienz ausgerichtet ist. Es benötigt weniger als 25 MB Speicherplatz, hat etwa 15 Millionen Parameter und läuft auf Low-End-Geräten ohne GPU-Unterstützung.KittenTTS wurde vom KittenML-Team entwickelt und bietet mehrere...

SongGeneration: ein quelloffenes KI-Modell zur Erzeugung hochwertiger Musik und Liedtexte
SongGeneration 是由腾讯 AI Lab 开发并开源的音乐生成模型,专注于生成高品质的歌曲,包括歌词、伴奏和人声。它基于 LeVo 框架,结合语言模型 LeLM 和音乐编解码器,支持中英文歌曲生成。模型在百万歌曲数据集上训练,能...

OpusLM_7B_Anneal: ein effizientes einheitliches Modell für Spracherkennung und -synthese
OpusLM_7B_Anneal 是由 ESPnet 团队开发并在 Hugging Face 平台托管的开源语音处理模型。它专注于语音识别、文本转语音、语音翻译和语音增强等多种任务,适合研究人员和开发者在语音处理领域进行实验和应用。模型基于...

Magenta RealTime: ein Open-Source-Modell zur Erzeugung von Musik in Echtzeit
Magenta RealTime (kurz Magenta RT) ist ein von Google DeepMind entwickeltes Open-Source-Musikgenerierungsmodell, das sich auf die Erstellung von Musik in Echtzeit konzentriert. Es ist eine Open-Source-Version von Lyria RealTime, die die Erzeugung von hochwertigen Musikclips über Text- oder Audiohinweise unterstützt. Das Modell basiert auf 80...

MOSS-TTSD: Open-Source-Sprachgenerierungswerkzeug für zweisprachige Dialoge
MOSS-TTSD 是一个开源的对话语音生成模型,支持中文和英文双语。它可以将双人对话文本转化为自然、富有表现力的语音,适合用于AI播客制作、语言研究等场景。模型基于低比特率编码技术,支持零样本双人语音克隆和长达960秒的单次语音生成。MO...

Higgs Audio: ein Open-Source-Tool zur Erzeugung hochwertiger Sprache und Dialoge mit mehreren Charakteren
Higgs Audio 是由 Boson AI 开发的一个开源文本转语音(TTS)项目,专注于生成高质量、情感丰富的语音和多角色对话。项目基于超过1000万小时的音频数据训练,支持零样本语音克隆、自然对话生成和多语言语音输出。Higgs A...

Voxtral: ein von Mistral AI entwickeltes KI-Modell für die Transkription und das Verständnis von Sprache
Voxtral是法国AI创业公司Mistral AI于2025年7月15日发布的其首个开放式音频模型。 Voxtral旨在为商业应用提供生产环境开箱即用的语音理解功能,其价格具有很高的市场竞争力。 Voxtral模型有两个版本,分别是用于生...

CosyVoice: Ali quelloffenes mehrsprachiges Klon- und Generierungswerkzeug
CosyVoice 是一个开源的多语言语音生成模型,专注于高质量的文本转语音(TTS)技术。它支持多种语言的语音合成,提供零样本语音生成、跨语言语音克隆和细粒度情感控制等功能。Cos– yVoice 2.0 相比上一版本,显著降低了30%到...

Qwen-TTS: Ein Sprachsynthesewerkzeug mit chinesischem Dialekt und zweisprachiger Unterstützung
Qwen-TTS 是由阿里巴巴云 Qwen 团队开发的一款文本转语音(TTS)工具,通过 Qwen API 提供服务。它基于超大规模语音数据集训练,语音输出自然且富有表现力,能自动调整语调、语速和情感。Qwen-TTS 支持普通话、英文,以...

Kyutai: Werkzeug zur Umwandlung von Sprache in Text in Echtzeit
Das Delayed-Streams-Modelling-Projekt von Kyutai Labs ist ein Open-Source-Framework für die Umwandlung von Sprache in Text, dessen Kern auf der Delayed-Stream-Modelling-Technologie (DSM) basiert. Es unterstützt Echtzeit-Sprache-zu-Text- (STT) und Text-zu-Sprache- (TTS) Funktionen, die für die Entwicklung effizienter Sprachinteraktionsanwendungen geeignet sind. Das Projekt bietet P...

MiniMax Speech 02
随着人工智能技术的不断演进,个性化和高自然度的语音交互已成为众多智能应用的关键需求。然而,现有的文本转语音 (TTS) 技术在满足大规模个性化音色、多语种覆盖以及高度真实情感表达方面仍面临挑战。针对这些行业痛点,MiniMax Speech...

Muyan-TTS: Personalisiertes Podcast-Sprachtraining und -synthese
Muyan-TTS 是一个专为播客场景设计的开源文本转语音(TTS)模型。它通过超过10万小时的播客音频数据预训练,支持零样本语音合成,生成高质量的自然语音。模型基于 Llama-3.2-3B 构建,结合 SoVITS 解码器,提供高效的语...

Kimi-Audio: Open-Source-Audioverarbeitung und Dialogbasis-Modell
Kimi-Audio 是由 Moonshot AI 开发的一款开源音频基础模型,专注于音频理解、生成和对话。它支持多种音频处理任务,例如语音识别、音频问答和语音情感识别。模型经过超过 1300 万小时的音频数据预训练,结合创新的混合架构,在...

Orpheus-TTS: Ein Text-to-Speech-Werkzeug zur Erzeugung natürlicher chinesischer Sprache
Orpheus-TTS 是一个开源的文本转语音(TTS)系统,基于 Llama-3b 架构开发,目标是生成接近人类自然语音的音频。它由 Canopy AI 团队推出,支持英语、西班牙语、法语、德语、意大利语、葡萄牙语和汉语等多种语言。系统能...

MegaTTS3: Ein leichtgewichtiges Modell zur Synthese von chinesischer und englischer Sprache
MegaTTS3 是字节跳动与浙江大学合作开发的一款开源语音合成工具,专注于生成高质量的中英文语音。它的核心模型只有 0.45B 参数,轻量高效,支持中英文混合语音生成和语音克隆。项目托管在 GitHub 上,提供代码和预训练模型供免费下载...

IndexTTS: Text-to-Speech-Tool mit Unterstützung für Chinesisch-Englisch-Mischung
IndexTTS ist ein Open-Source-Tool für Text-to-Speech (TTS), das auf GitHub gehostet und vom index-tts-Team entwickelt wird. Es basiert auf XTTS und Tortoise-Technologien und bietet eine effiziente und qualitativ hochwertige Sprachsynthese durch ein verbessertes Moduldesign.IndexTTS verwendet zehntausende von...

AssemblyAI: Hochpräzise Sprache-zu-Text- und Audio Intelligence-Analyseplattform
AssemblyAI ist eine Plattform, die sich auf Sprach-KI-Technologie konzentriert und Entwicklern und Unternehmen effiziente Sprache-zu-Text- und Audio-Analyse-Tools zur Verfügung stellt. Sein Kern Highlight ist die Universal-Familie von Modellen, insbesondere die neu veröffentlichte Universal-2, die AssemblyAIs fortschrittlichste Sprache-zu-Text...
zurück zum Anfang