VibeVoice-1.5B:微软出品的支持长音频多角色对话的语音生成模型
VibeVoice-1.5B是微软研究院发布的一款前沿的开源文本转语音(Text-to-Speech, TTS)模型。 它专门用于生成富有表现力的、长篇幅的、多角色对话音频,例如播客或有声读物。 VibeVoice的核心创新在于它使用了以7...
MiniMax 发布 Speech 2.5:语音合成技术在多语言与音色复刻上突破
8月7日,MiniMax 公司发布了其新一代语音生成模型 Speech 2.5。据官方资料显示,该模型在前代 Speech 02 的基础上,于多语种表现力、音色复刻精度以及支持的语种数量上实现了提升。 在人工智能生成内容(AIGC)领...
KittenTTS:轻量级文本转语音模型
KittenTTS 是一个开源的文本转语音(TTS)模型,专注于轻量化和高效性。它仅占用不到 25MB 存储空间,拥有约 1500 万个参数,无需 GPU 支持即可在低端设备上运行。KittenTTS 由 KittenML 团队开发,提供多...
SongGeneration:生成高品质音乐和歌词的开源AI模型
SongGeneration 是由腾讯 AI Lab 开发并开源的音乐生成模型,专注于生成高品质的歌曲,包括歌词、伴奏和人声。它基于 LeVo 框架,结合语言模型 LeLM 和音乐编解码器,支持中英文歌曲生成。模型在百万歌曲数据集上...
OpusLM_7B_Anneal:高效的语音识别与合成统一模型
OpusLM_7B_Anneal 是由 ESPnet 团队开发并在 Hugging Face 平台托管的开源语音处理模型。它专注于语音识别、文本转语音、语音翻译和语音增强等多种任务,适合研究人员和开发者在语音处理领域进行实验和应用。模型.....
Magenta RealTime:实时生成音乐的开源模型
Magenta RealTime(简称Magenta RT)是一个由Google DeepMind开发的开源音乐生成模型,专注于实时音乐创作。它是Lyria RealTime的开源版本,支持通过文字或音频提示生成高质量音乐片段。模型基于80...
MOSS-TTSD:开源的双语对话语音生成工具
MOSS-TTSD 是一个开源的对话语音生成模型,支持中文和英文双语。它可以将双人对话文本转化为自然、富有表现力的语音,适合用于AI播客制作、语言研究等场景。模型基于低比特率编码技术,支持零样本双人语音克隆和...
Higgs Audio:生成高质量语音和多角色对话的开源工具
Higgs Audio 是由 Boson AI 开发的一个开源文本转语音(TTS)项目,专注于生成高质量、情感丰富的语音和多角色对话。项目基于超过1000万小时的音频数据训练,支持零样本语音克隆、自然对话生成和多语言语音输出。...
Voxtral:由Mistral AI开发用于语音转录和理解的AI模型
Voxtral是法国AI创业公司Mistral AI于2025年7月15日发布的其首个开放式音频模型。 Voxtral旨在为商业应用提供生产环境开箱即用的语音理解功能,其价格具有很高的市场竞争力。 Voxtral模型有两个版本,分别是用于....
CosyVoice:阿里开源的多语言克隆与生成工具
CosyVoice 是一个开源的多语言语音生成模型,专注于高质量的文本转语音(TTS)技术。它支持多种语言的语音合成,提供零样本语音生成、跨语言语音克隆和细粒度情感控制等功能。Cos– yVoice 2.0 相比上一版本,显著...
Qwen-TTS:支持中文方言和双语的语音合成工具
Qwen-TTS 是由阿里巴巴云 Qwen 团队开发的一款文本转语音(TTS)工具,通过 Qwen API 提供服务。它基于超大规模语音数据集训练,语音输出自然且富有表现力,能自动调整语调、语速和情感。Qwen-TTS 支持普通话、英...
Kyutai:语音与文本实时转换工具
Kyutai Labs的delayed-streams-modeling项目是一个开源的语音与文本转换框架,核心基于延迟流建模(DSM)技术。它支持实时语音转文本(STT)和文本转语音(TTS)功能,适用于构建高效的语音交互应用。项目提供P...
MiniMax Speech 02
随着人工智能技术的不断演进,个性化和高自然度的语音交互已成为众多智能应用的关键需求。然而,现有的文本转语音 (TTS) 技术在满足大规模个性化音色、多语种覆盖以及高度真实情感表达方面仍面临挑战。针对这些行...
Muyan-TTS:个性化播客语音训练与合成
Muyan-TTS 是一个专为播客场景设计的开源文本转语音(TTS)模型。它通过超过10万小时的播客音频数据预训练,支持零样本语音合成,生成高质量的自然语音。模型基于 Llama-3.2-3B 构建,结合 SoVITS 解码器,提供高...
Kimi-Audio:开源音频处理与对话基础模型
Kimi-Audio 是由 Moonshot AI 开发的一款开源音频基础模型,专注于音频理解、生成和对话。它支持多种音频处理任务,例如语音识别、音频问答和语音情感识别。模型经过超过 1300 万小时的音频数据预训练,结合创新...
Orpheus-TTS:生成自然中文语音的文本转语音工具
Orpheus-TTS 是一个开源的文本转语音(TTS)系统,基于 Llama-3b 架构开发,目标是生成接近人类自然语音的音频。它由 Canopy AI 团队推出,支持英语、西班牙语、法语、德语、意大利语、葡萄牙语和汉语等多种语言...
MegaTTS3:合成中英文语音的轻量模型
MegaTTS3 是字节跳动与浙江大学合作开发的一款开源语音合成工具,专注于生成高质量的中英文语音。它的核心模型只有 0.45B 参数,轻量高效,支持中英文混合语音生成和语音克隆。项目托管在 GitHub 上,提供代码和...
IndexTTS:支持中英文混合的文本转语音工具
IndexTTS 是一个开源的文本转语音(TTS)工具,托管在 GitHub 上,由 index-tts 团队开发。它基于 XTTS 和 Tortoise 技术,通过改进模块设计,提供高效且高质量的语音合成。IndexTTS 使用了数万小时...
AssemblyAI:高精度语音转文字与音频智能分析平台
AssemblyAI 是一个专注于语音AI技术的平台,为开发者和企业提供高效的语音转文字和音频分析工具。其核心亮点在于 Universal 系列模型,尤其是最新发布的 Universal-2,这是 AssemblyAI 迄今最先进的语音转文...
回顶部