CosyVoice:阿里开源的多语言克隆与生成工具
CosyVoice 是一个开源的多语言语音生成模型,专注于高质量的文本转语音(TTS)技术。它支持多种语言的语音合成,提供零样本语音生成、跨语言语音克隆和细粒度情感控制等功能。Cos– yVoice 2.0 相比上一版本,显著...
Qwen-TTS:支持中文方言和双语的语音合成工具
Qwen-TTS 是由阿里巴巴云 Qwen 团队开发的一款文本转语音(TTS)工具,通过 Qwen API 提供服务。它基于超大规模语音数据集训练,语音输出自然且富有表现力,能自动调整语调、语速和情感。Qwen-TTS 支持普通话、英...
Kyutai:语音与文本实时转换工具
Kyutai Labs的delayed-streams-modeling项目是一个开源的语音与文本转换框架,核心基于延迟流建模(DSM)技术。它支持实时语音转文本(STT)和文本转语音(TTS)功能,适用于构建高效的语音交互应用。项目提供P...
MiniMax Speech 02
随着人工智能技术的不断演进,个性化和高自然度的语音交互已成为众多智能应用的关键需求。然而,现有的文本转语音 (TTS) 技术在满足大规模个性化音色、多语种覆盖以及高度真实情感表达方面仍面临挑战。针对这些行...
Baichuan-Audio
Baichuan-Audio 是由百川智能(baichuan-inc)开发的一个开源项目,托管于 GitHub 上,专注于端到端的语音交互技术。该项目提供了一个完整的音频处理框架,能够将语音输入转化为离散音频标记,再通过大模型生成对...
Step-Audio
Step-Audio 是一个开源的智能语音交互框架,旨在提供生产环境开箱即用的语音理解和生成能力。该框架支持多语言对话(如中文、英文、日语)、情感语音(如快乐、悲伤)、区域方言(如粤语、四川话)、可调节的语速...