CSM Voice Cloning 是由开发者 Isaiah Bjork 基于 Sesame CSM-1B 模型开发的开源语音克隆工具,托管于 GitHub。其核心功能是通过用户提供的音频样本快速生成具有相似特征的克隆语音,主要面向内容创作者、开发者等群体。
核心功能清单:
- voice cloning:通过上传MP3/WAV格式的样本(推荐2-3分钟)生成相似声音
- text-to-speech:输入文字即可输出带有克隆声音的音频文件
- 双模运行:支持本地GPU处理或Modal云端GPU加速
- Open Source Customizable:允许用户调整模型参数(如max_seq_len)适配长音频
- Multi-format support:兼容常见音频格式输入输出
虽然克隆效果不能100%还原原声,但能保留显著的声音特征,适合快速生成配音素材。
This answer comes from the articleCSM Voice Cloning: Fast Voice Cloning with the CSM-1BThe