O Muyan-TTS é um modelo de conversão de texto em fala (TTS) de código aberto projetado para cenários de podcasting. Ele é pré-treinado com mais de 100.000 horas de dados de áudio de podcast e oferece suporte à síntese de fala de amostra zero para gerar fala natural de alta qualidade. O modelo foi desenvolvido com base no Llama-3.2-3B e, combinado com o decodificador SoVITS, fornece...
O Kimi-Audio é um modelo de base de áudio de código aberto desenvolvido pela Moonshot AI que se concentra na compreensão, geração e diálogo de áudio. Ele oferece suporte a uma ampla gama de tarefas de processamento de áudio, como reconhecimento de fala, P&R de áudio e reconhecimento de emoção de fala. O modelo foi pré-treinado com mais de 13 milhões de horas de dados de áudio, combinados com...
Audibit 是一个开源项目,核心功能是将 Hacker News、TechCrunch 等热门科技文章自动转为音频播客,让用户在通勤、健身或忙碌时通过 Web 端或移动端收听资讯。项目使用 Next.js 和 React 开发前端,结合...
Dia 是一个由 Nari Labs 开发的开源文本转语音(TTS)模型,专注于生成超现实的对话音频。它能在一次处理中将文本脚本转化为逼真的多角色对话,支持情感和语调控制,甚至能生成非语言表达,如笑声。Dia 的核心是 ...
Orpheus-TTS 是一个开源的文本转语音(TTS)系统,基于 Llama-3b 架构开发,目标是生成接近人类自然语音的音频。它由 Canopy AI 团队推出,支持英语、西班牙语、法语、德语、意大利语、葡萄牙语和汉语等多种语言...
ElevenLabs MCP 是 ElevenLabs 官方推出的开源项目,托管在 GitHub 上。它是一个基于模型控制协议(Model Context Protocol, MCP)的服务器工具,旨在连接 AI 模型和 ElevenLab...
Vapi 是一个专为开发者打造的语音AI平台。它能让用户在几分钟内构建、测试和部署语音AI助手,解决传统语音应用开发耗时长、扩展难的问题。Vapi 提供完整的工具和基础设施,支持实时对话、电话集成和多平台部署。...
O MiniMax Audio é uma ferramenta de geração de fala de IA da MiniMax, com o recurso principal de converter rapidamente texto em fala natural altamente semelhante. Ela se baseia no modelo Speech-02, com uma similaridade de síntese de fala de até 99%, qualidade de som de nível de estúdio e suporte para mais de 30 idiomas e uma ampla variedade de...
Text2Voice 是一个开源工具,基于硅基流动 API 提供文本转语音功能,最大的特点是带有简洁的图形用户界面(GUI)。它由开发者 Sheldon Lee 在 GitHub 上创建,让用户可以通过界面轻松把文字变成语音。项目使用 Py...
Open-VoiceCanvas 是一个开源的语音合成平台,由 ItusiAI 团队开发。它支持超过 50 种语言,可以将文字转为自然语音,还能通过上传音频克隆个性化声音。项目整合了 OpenAI TTS、AWS Polly 和 MiniM...
Paper to Podcast 是一个开源工具,专门把学术研究论文转化为生动有趣的播客。它通过人工智能技术,将 PDF 格式的论文变成三个角色——主持、学习者和专家——之间的对话,让复杂的学术内容变得简单易懂。这个项目由...
MegaTTS3 是字节跳动与浙江大学合作开发的一款开源语音合成工具,专注于生成高质量的中英文语音。它的核心模型只有 0.45B 参数,轻量高效,支持中英文混合语音生成和语音克隆。项目托管在 GitHub 上,提供代码和...
Podcastle 是一个基于人工智能的在线平台,专门帮助用户快速创建和编辑高质量的播客。它集成了录音、编辑和发布功能,用户无需专业设备或复杂软件,只需通过浏览器就能完成所有操作。平台利用 AI 技术提供噪音消...
IndexTTS 是一个开源的文本转语音(TTS)工具,托管在 GitHub 上,由 index-tts 团队开发。它基于 XTTS 和 Tortoise 技术,通过改进模块设计,提供高效且高质量的语音合成。IndexTTS 使用了数万小时...
csm-mlx 是基于苹果公司开发的 MLX 框架,专门为苹果芯片(Apple Silicon)优化了 CSM(Conversation Speech Model)语音对话模型。这个项目让用户可以用简单的方式在苹果设备上运行高效的语音生成和...
Autiobooks 是一款开源工具,旨在帮助用户将 .epub 格式的电子书快速转换为 .m4b 格式的有声书。它采用 Kokoro 提供的优质语音合成技术,生成的音频自然流畅。这款工具由 David Nesbitt 开发,遵循 MIT ...
PlayHT 是一个专注于AI语音生成的高效在线平台,帮助用户将文本快速转化为自然、逼真的语音。它提供超过600种AI语音,支持60多种语言和多样化的口音,适用于播客制作、教育内容、营销推广等多种场景。用户只需输...
MLX-Audio 是一个基于 Apple MLX 框架开发的开源工具,专注于文本转语音(TTS)和语音转语音(STS)功能。它充分利用 Apple Silicon(如 M 系列芯片)的强大计算能力,提供高效、快速的语音合成解决方案。无论是...
Spark-TTS 是由 SparkAudio 团队开发的一款开源文本转语音(Text-to-Speech, TTS)工具,托管在 GitHub 上,旨在帮助用户将文本高效转换为自然流畅的语音。它基于先进的深度学习技术,支持多种语言和声音风...