海外访问：www.kdjingpai.com

Ctrl + D 收藏本站

AI文本转语音

 提交网站

VibeVoice-1.5B：微软出品的支持长音频多角色对话的语音生成模型
VibeVoice-1.5B是微软研究院发布的一款前沿的开源文本转语音（Text-to-Speech, TTS）模型。它专门用于生成富有表现力的、长篇幅的、多角色对话音频，例如播客或有声读物。 VibeVoice的核心创新在于它使用了以7...
08-27 4.4 K2已赞
Kitten-TTS-Server：一个可自行部署的轻量级文本转语音服务
Kitten-TTS-Server 是一个开源项目，它为轻量级的 KittenTTS 模型提供了一个功能增强的服务器。用户可以通过这个项目自己搭建一个文本转语音（TTS）服务。这个项目的核心优势在于它在原始模型的基础上，增加了一个直观的网页...
08-09 3.7 K0已赞
KittenTTS：轻量级文本转语音模型
KittenTTS 是一个开源的文本转语音（TTS）模型，专注于轻量化和高效性。它仅占用不到 25MB 存储空间，拥有约 1500 万个参数，无需 GPU 支持即可在低端设备上运行。KittenTTS 由 KittenML 团队开发，提供多...
08-06 2.8 K0已赞
OpusLM_7B_Anneal：高效的语音识别与合成统一模型
OpusLM_7B_Anneal 是由 ESPnet 团队开发并在 Hugging Face 平台托管的开源语音处理模型。它专注于语音识别、文本转语音、语音翻译和语音增强等多种任务，适合研究人员和开发者在语音处理领域进行实验和应用。模型基于...
08-01 1.5 K0已赞
MOSS-TTSD：开源的双语对话语音生成工具
MOSS-TTSD 是一个开源的对话语音生成模型，支持中文和英文双语。它可以将双人对话文本转化为自然、富有表现力的语音，适合用于AI播客制作、语言研究等场景。模型基于低比特率编码技术，支持零样本双人语音克隆和长达960秒的单次语音生成。MO...
07-31 2.3 K0已赞
FineShare：生成AI语音和音乐的创作工具
FineShare 是一个专注于 AI 音频和视频技术的平台，提供多种工具帮助用户创建高质量的语音、音乐和视频内容。网站的核心产品包括 FineVoice、Singify 和 FineCam，分别用于语音生成与转换、AI 音乐创作和虚拟摄像...
07-29 2.0 K0已赞
讯飞智作：将文字转换成语音和数字人视频
讯飞智作是科大讯飞公司开发的一个提供人工智能内容创作服务的平台。它的核心功能是将用户输入的文字转换成语音，这个过程通常被称为“AI配音”或“语音合成”。用户可以从多种预设的虚拟声音（即“主播”）中进行选择，这些声音具有不同的风格，比如新闻播...
07-27 2.1 K0已赞
ListenHub：将网页、文件快速转为AI播客的工具
ListenHub 是一个利用人工智能技术将网页、文档或用户输入的内容快速转化为播客的平台。它支持中英文语音合成，用户只需上传文件、输入话题或粘贴链接，即可生成自然流畅的播客音频。平台操作简单，适合移动端使用，方便用户在通勤、运动或空闲时收...
07-27 2.8 K0已赞
Higgs Audio：生成高质量语音和多角色对话的开源工具
Higgs Audio 是由 Boson AI 开发的一个开源文本转语音（TTS）项目，专注于生成高质量、情感丰富的语音和多角色对话。项目基于超过1000万小时的音频数据训练，支持零样本语音克隆、自然对话生成和多语言语音输出。Higgs A...
07-25 3.9 K0已赞
Parrot TTS：将网页文本转为自然语音的阅读工具
Parrot TTS 是一款 Chrome 浏览器扩展程序，专为将网页文本转化为自然语音设计。它使用先进的 AI 技术，提供接近人类的声音体验，解决传统文本转语音工具听起来机械的问题。用户可以一键将文章、新闻或研究资料转为音频，适合多任务处...
07-24 1.7 K0已赞
AIdeaFlow Podcast：将文本快速转化为专业播客音频的工具
AIdeaFlow Podcast 是一个基于人工智能的播客生成平台，用户可以将文本内容快速转化为高质量的播客音频。它支持多种语言和超过120种独特语音，适合学生、专业人士和内容创作者使用。用户只需输入文本或上传脚本，平台即可自动生成自然对...
07-20 1.5 K0已赞
CosyVoice：阿里开源的多语言克隆与生成工具
CosyVoice 是一个开源的多语言语音生成模型，专注于高质量的文本转语音（TTS）技术。它支持多种语言的语音合成，提供零样本语音生成、跨语言语音克隆和细粒度情感控制等功能。Cos– yVoice 2.0 相比上一版本，显著降低了30%到...
07-09 3.3 K0已赞
Qwen-TTS：支持中文方言和双语的语音合成工具
Qwen-TTS 是由阿里巴巴云 Qwen 团队开发的一款文本转语音（TTS）工具，通过 Qwen API 提供服务。它基于超大规模语音数据集训练，语音输出自然且富有表现力，能自动调整语调、语速和情感。Qwen-TTS 支持普通话、英文，以...
07-05 3.8 K0已赞
Kyutai：语音与文本实时转换工具
Kyutai Labs的delayed-streams-modeling项目是一个开源的语音与文本转换框架，核心基于延迟流建模（DSM）技术。它支持实时语音转文本（STT）和文本转语音（TTS）功能，适用于构建高效的语音交互应用。项目提供P...
07-05 3.6 K1已赞
AIVocal：免费生成播客与处理音频的AI工具
AIVocal 是一个免费的 AI 音频处理平台，提供文本转语音（TTS）、语音转文本（STT）、人声分离和播客生成等功能。用户无需注册即可使用，支持 24 种语言和 900 多种自然音色，适合制作播客、有声书、视频配音等。平台界面直观，操...
06-27 2.5 K0已赞
SuperMaker AI：免费生成视频、音乐和图像的创作工具
SuperMaker AI 是一个免费的在线创作平台，帮助用户快速生成高质量视频、音乐、图像和语音内容。用户无需登录即可试用核心功能，操作简单，适合个人创作者和小型团队。平台通过人工智能技术，将文字、图片或创意想法转化为专业级内容，输出效果...
06-11 2.8 K0已赞
Muyan-TTS：个性化播客语音训练与合成
Muyan-TTS 是一个专为播客场景设计的开源文本转语音（TTS）模型。它通过超过10万小时的播客音频数据预训练，支持零样本语音合成，生成高质量的自然语音。模型基于 Llama-3.2-3B 构建，结合 SoVITS 解码器，提供高效的语...
05-06 3.0 K0已赞
Kimi-Audio：开源音频处理与对话基础模型
Kimi-Audio 是由 Moonshot AI 开发的一款开源音频基础模型，专注于音频理解、生成和对话。它支持多种音频处理任务，例如语音识别、音频问答和语音情感识别。模型经过超过 1300 万小时的音频数据预训练，结合创新的混合架构，在...
05-05 4.4 K0已赞
Audibit：将热门科技文章转为随时收听的音频播客
Audibit 是一个开源项目，核心功能是将 Hacker News、TechCrunch 等热门科技文章自动转为音频播客，让用户在通勤、健身或忙碌时通过 Web 端或移动端收听资讯。项目使用 Next.js 和 React 开发前端，结合...
05-05 2.1 K0已赞