当前位置：首页 » AI答疑

MOSS-TTSD支持长达960秒的单次语音生成和零样本双人语音克隆

2025-08-19

428

MOSS-TTSD在语音生成方面具备显著的技术优势。它支持长达960秒的单次语音生成，这一特性使其特别适合播客或长篇内容的制作。另一方面，其零样本双人语音克隆功能可以在无需额外训练的情况下，准确克隆目标说话者的音色并应用于对话场景。用户只需提供一段至少10秒的目标音频，模型即可生成与该音色匹配的对话语音，有效区分不同说话者。

本答案来源于文章《MOSS-TTSD：开源的双语对话语音生成工具》