VibeVoice-1.5B是微软研究院发布的一款前沿的开源文本转语音(Text-to-Speech, TTS)模型。 它专门用于生成富有表现力的、长篇幅的、多角色对话音频,例如播客或有声读物。 VibeVoice的核心创新在于它使用了以7...
Kitten-TTS-Server 是一个开源项目,它为轻量级的 KittenTTS 模型提供了一个功能增强的服务器。用户可以通过这个项目自己搭建一个文本转语音(TTS)服务。这个项目的核心优势在于它在原始模型的基础上,增加了一...
KittenTTS 是一个开源的文本转语音(TTS)模型,专注于轻量化和高效性。它仅占用不到 25MB 存储空间,拥有约 1500 万个参数,无需 GPU 支持即可在低端设备上运行。KittenTTS 由 KittenML 团队开发,提供多...
OpusLM_7B_Anneal 是由 ESPnet 团队开发并在 Hugging Face 平台托管的开源语音处理模型。它专注于语音识别、文本转语音、语音翻译和语音增强等多种任务,适合研究人员和开发者在语音处理领域进行实验和应用。模型.....
MOSS-TTSD 是一个开源的对话语音生成模型,支持中文和英文双语。它可以将双人对话文本转化为自然、富有表现力的语音,适合用于AI播客制作、语言研究等场景。模型基于低比特率编码技术,支持零样本双人语音克隆和...
FineShare 是一个专注于 AI 音频和视频技术的平台,提供多种工具帮助用户创建高质量的语音、音乐和视频内容。网站的核心产品包括 FineVoice、Singify 和 FineCam,分别用于语音生成与转换、AI 音乐创作和虚拟摄像...
讯飞智作是科大讯飞公司开发的一个提供人工智能内容创作服务的平台。它的核心功能是将用户输入的文字转换成语音,这个过程通常被称为“AI配音”或“语音合成”。用户可以从多种预设的虚拟声音(即“主播”)中进行选择...
ListenHub 是一个利用人工智能技术将网页、文档或用户输入的内容快速转化为播客的平台。它支持中英文语音合成,用户只需上传文件、输入话题或粘贴链接,即可生成自然流畅的播客音频。平台操作简单,适合移动端使...
Higgs Audio 是由 Boson AI 开发的一个开源文本转语音(TTS)项目,专注于生成高质量、情感丰富的语音和多角色对话。项目基于超过1000万小时的音频数据训练,支持零样本语音克隆、自然对话生成和多语言语音输出。...
Parrot TTS 是一款 Chrome 浏览器扩展程序,专为将网页文本转化为自然语音设计。它使用先进的 AI 技术,提供接近人类的声音体验,解决传统文本转语音工具听起来机械的问题。用户可以一键将文章、新闻或研究资料转...
AIdeaFlow Podcast 是一个基于人工智能的播客生成平台,用户可以将文本内容快速转化为高质量的播客音频。它支持多种语言和超过120种独特语音,适合学生、专业人士和内容创作者使用。用户只需输入文本或上传脚本,...
CosyVoice 是一个开源的多语言语音生成模型,专注于高质量的文本转语音(TTS)技术。它支持多种语言的语音合成,提供零样本语音生成、跨语言语音克隆和细粒度情感控制等功能。Cos– yVoice 2.0 相比上一版本,显著...
Qwen-TTS 是由阿里巴巴云 Qwen 团队开发的一款文本转语音(TTS)工具,通过 Qwen API 提供服务。它基于超大规模语音数据集训练,语音输出自然且富有表现力,能自动调整语调、语速和情感。Qwen-TTS 支持普通话、英...
Kyutai Labs的delayed-streams-modeling项目是一个开源的语音与文本转换框架,核心基于延迟流建模(DSM)技术。它支持实时语音转文本(STT)和文本转语音(TTS)功能,适用于构建高效的语音交互应用。项目提供P...
AIVocal 是一个免费的 AI 音频处理平台,提供文本转语音(TTS)、语音转文本(STT)、人声分离和播客生成等功能。用户无需注册即可使用,支持 24 种语言和 900 多种自然音色,适合制作播客、有声书、视频配音等。...
SuperMaker AI 是一个免费的在线创作平台,帮助用户快速生成高质量视频、音乐、图像和语音内容。用户无需登录即可试用核心功能,操作简单,适合个人创作者和小型团队。平台通过人工智能技术,将文字、图片或创意...
Muyan-TTS 是一个专为播客场景设计的开源文本转语音(TTS)模型。它通过超过10万小时的播客音频数据预训练,支持零样本语音合成,生成高质量的自然语音。模型基于 Llama-3.2-3B 构建,结合 SoVITS 解码器,提供高...
Kimi-Audio 是由 Moonshot AI 开发的一款开源音频基础模型,专注于音频理解、生成和对话。它支持多种音频处理任务,例如语音识别、音频问答和语音情感识别。模型经过超过 1300 万小时的音频数据预训练,结合创新...
Audibit 是一个开源项目,核心功能是将 Hacker News、TechCrunch 等热门科技文章自动转为音频播客,让用户在通勤、健身或忙碌时通过 Web 端或移动端收听资讯。项目使用 Next.js 和 React 开发前端,结合...
回顶部