Llasa-3B的语音克隆功能通过以下机制实现:
- 样本准备:需要提供约15秒的目标说话人音频样本,该样本应该是清晰的单声道16kHz WAV格式文件。
- 声音特征提取:系统使用XCodec2编码器将音频样本转换为模型可以理解的代码书序列。这个过程会提取说话人的音色、语调等声音特征。
- 特征注入:在进行文本转语音时,将预先提取的声音特征代码作为前缀添加到生成序列中,引导模型按照目标说话人的声音特征进行合成。
- 联合生成:模型会综合输入的文本内容和声音特征提示,生成既包含正确文字内容又具备目标音色的语音输出。
使用语音克隆功能需要做的准备工作包括:
- 确保源音频质量良好,无明显噪声
- 音频长度适中(10-30秒)
- 音频格式正确(16kHz单声道WAV)
- 安装所有必需的依赖包,特别是XCodec2模型
- 有足够的GPU资源进行模型推理
值得注意的是,克隆效果会因样本质量、说话人特征复杂度等因素而有所不同。
本答案来源于文章《Llasa 1~8B:高品质语音生成和克隆的开源文本转语音模型》