语音模型

 提交网站

VibeVoice-1.5B：微软出品的支持长音频多角色对话的语音生成模型
VibeVoice-1.5B是微软研究院发布的一款前沿的开源文本转语音（Text-to-Speech, TTS）模型。它专门用于生成富有表现力的、长篇幅的、多角色对话音频，例如播客或有声读物。 VibeVoice的核心创新在于它使用了以7...
4.4 K直达2已赞
0已收藏
MiniMax 发布 Speech 2.5：语音合成技术在多语言与音色复刻上突破
8月7日，MiniMax 公司发布了其新一代语音生成模型 Speech 2.5。据官方资料显示，该模型在前代 Speech 02 的基础上，于多语种表现力、音色复刻精度以及支持的语种数量上实现了提升。在人工智能生成内容（AIGC）领域，文...
2.3 K直达0已赞
0已收藏
KittenTTS：轻量级文本转语音模型
KittenTTS 是一个开源的文本转语音（TTS）模型，专注于轻量化和高效性。它仅占用不到 25MB 存储空间，拥有约 1500 万个参数，无需 GPU 支持即可在低端设备上运行。KittenTTS 由 KittenML 团队开发，提供多...
2.9 K直达0已赞
0已收藏
SongGeneration：生成高品质音乐和歌词的开源AI模型
SongGeneration 是由腾讯 AI Lab 开发并开源的音乐生成模型，专注于生成高品质的歌曲，包括歌词、伴奏和人声。它基于 LeVo 框架，结合语言模型 LeLM 和音乐编解码器，支持中英文歌曲生成。模型在百万歌曲数据集上训练，能...
4.1 K0已赞
0已收藏
OpusLM_7B_Anneal：高效的语音识别与合成统一模型
OpusLM_7B_Anneal 是由 ESPnet 团队开发并在 Hugging Face 平台托管的开源语音处理模型。它专注于语音识别、文本转语音、语音翻译和语音增强等多种任务，适合研究人员和开发者在语音处理领域进行实验和应用。模型基于...
1.6 K直达0已赞
0已收藏
Magenta RealTime：实时生成音乐的开源模型
Magenta RealTime（简称Magenta RT）是一个由Google DeepMind开发的开源音乐生成模型，专注于实时音乐创作。它是Lyria RealTime的开源版本，支持通过文字或音频提示生成高质量音乐片段。模型基于80...
2.2 K直达0已赞
0已收藏
MOSS-TTSD：开源的双语对话语音生成工具
MOSS-TTSD 是一个开源的对话语音生成模型，支持中文和英文双语。它可以将双人对话文本转化为自然、富有表现力的语音，适合用于AI播客制作、语言研究等场景。模型基于低比特率编码技术，支持零样本双人语音克隆和长达960秒的单次语音生成。MO...
2.3 K直达0已赞
0已收藏
Higgs Audio：生成高质量语音和多角色对话的开源工具
Higgs Audio 是由 Boson AI 开发的一个开源文本转语音（TTS）项目，专注于生成高质量、情感丰富的语音和多角色对话。项目基于超过1000万小时的音频数据训练，支持零样本语音克隆、自然对话生成和多语言语音输出。Higgs A...
4.0 K直达0已赞
0已收藏
Voxtral：由Mistral AI开发用于语音转录和理解的AI模型
Voxtral是法国AI创业公司Mistral AI于2025年7月15日发布的其首个开放式音频模型。 Voxtral旨在为商业应用提供生产环境开箱即用的语音理解功能，其价格具有很高的市场竞争力。 Voxtral模型有两个版本，分别是用于生...
2.4 K直达0已赞
0已收藏
CosyVoice：阿里开源的多语言克隆与生成工具
CosyVoice 是一个开源的多语言语音生成模型，专注于高质量的文本转语音（TTS）技术。它支持多种语言的语音合成，提供零样本语音生成、跨语言语音克隆和细粒度情感控制等功能。Cos– yVoice 2.0 相比上一版本，显著降低了30%到...
3.4 K直达0已赞
0已收藏
Qwen-TTS：支持中文方言和双语的语音合成工具
Qwen-TTS 是由阿里巴巴云 Qwen 团队开发的一款文本转语音（TTS）工具，通过 Qwen API 提供服务。它基于超大规模语音数据集训练，语音输出自然且富有表现力，能自动调整语调、语速和情感。Qwen-TTS 支持普通话、英文，以...
3.9 K直达0已赞
0已收藏
Kyutai：语音与文本实时转换工具
Kyutai Labs的delayed-streams-modeling项目是一个开源的语音与文本转换框架，核心基于延迟流建模（DSM）技术。它支持实时语音转文本（STT）和文本转语音（TTS）功能，适用于构建高效的语音交互应用。项目提供P...
3.7 K1已赞
0已收藏
MiniMax Speech 02
随着人工智能技术的不断演进，个性化和高自然度的语音交互已成为众多智能应用的关键需求。然而，现有的文本转语音 (TTS) 技术在满足大规模个性化音色、多语种覆盖以及高度真实情感表达方面仍面临挑战。针对这些行业痛点，MiniMax Speech...
3.9 K直达0已赞
0已收藏
Muyan-TTS：个性化播客语音训练与合成
Muyan-TTS 是一个专为播客场景设计的开源文本转语音（TTS）模型。它通过超过10万小时的播客音频数据预训练，支持零样本语音合成，生成高质量的自然语音。模型基于 Llama-3.2-3B 构建，结合 SoVITS 解码器，提供高效的语...
3.1 K直达0已赞
0已收藏
Kimi-Audio：开源音频处理与对话基础模型
Kimi-Audio 是由 Moonshot AI 开发的一款开源音频基础模型，专注于音频理解、生成和对话。它支持多种音频处理任务，例如语音识别、音频问答和语音情感识别。模型经过超过 1300 万小时的音频数据预训练，结合创新的混合架构，在...
4.5 K直达0已赞
0已收藏
Orpheus-TTS：生成自然中文语音的文本转语音工具
Orpheus-TTS 是一个开源的文本转语音（TTS）系统，基于 Llama-3b 架构开发，目标是生成接近人类自然语音的音频。它由 Canopy AI 团队推出，支持英语、西班牙语、法语、德语、意大利语、葡萄牙语和汉语等多种语言。系统能...
5.5 K直达0已赞
0已收藏
MegaTTS3：合成中英文语音的轻量模型
MegaTTS3 是字节跳动与浙江大学合作开发的一款开源语音合成工具，专注于生成高质量的中英文语音。它的核心模型只有 0.45B 参数，轻量高效，支持中英文混合语音生成和语音克隆。项目托管在 GitHub 上，提供代码和预训练模型供免费下载...
3.0 K直达0已赞
0已收藏
IndexTTS：支持中英文混合的文本转语音工具
IndexTTS 是一个开源的文本转语音（TTS）工具，托管在 GitHub 上，由 index-tts 团队开发。它基于 XTTS 和 Tortoise 技术，通过改进模块设计，提供高效且高质量的语音合成。IndexTTS 使用了数万小时...
6.3 K直达0已赞
0已收藏
AssemblyAI：高精度语音转文字与音频智能分析平台
AssemblyAI 是一个专注于语音AI技术的平台，为开发者和企业提供高效的语音转文字和音频分析工具。其核心亮点在于 Universal 系列模型，尤其是最新发布的 Universal-2，这是 AssemblyAI 迄今最先进的语音转文...
3.7 K直达0已赞
0已收藏

语音模型

快速查询站内AI工具