MOSS-TTSD 是一个开源的对话语音生成模型,具备以下核心功能:
- 双语对话生成:支持中英文双人对话文本的自然语音转换,输出富有表现力。
- 零样本语音克隆:仅需10秒目标音频即可克隆音色,并准确区分对话中的不同说话者。
- 长语音生成:单次可生成长达960秒的语音,适合播客或长内容制作。
- 集成播客工具:通过 Podever 将 PDF、URL 或文本直接转为双人对话风格播客。
- 开源与商用支持:提供完整模型权重、推理代码和 API,允许免费商用。
- 模型微调:支持全模型或 LoRA 微调,适配自定义数据集。
本答案来源于文章《MOSS-TTSD:开源的双语对话语音生成工具》




























