短时音频克隆的完整流程
Llasa-3B实现短时音频克隆的核心在于:
- xcodec2特征提取:将15秒音频编码为384维向量序列(需采样率16kHz)
- 前缀引导生成:将特征向量转换为格式化的token前缀(
<|s_[id]|>
),插入到生成的prompt中 - 端到端转换:模型会基于该前缀自动学习声纹特征,保持音色一致性
关键注意事项:1)原音频需清晰无背景噪音;2)使用.unsqueeze(0).unsqueeze(0)
保持输入维度正确;3)克隆效果可通过调整top_p=1
参数优化。
This answer comes from the articleLlasa 1~8B: an open source text-to-speech model for high quality speech generation and cloningThe