Seed-VC 的 SVC 模式采用 44kHz 采样率的 seed-uvit-whisper-base 模型,通过 f0-condition 机制保持原始歌唱的旋律特征。其专业级效果体现在:
- <li)音高保持:支持半音平移(semi-tone-shift)和自动音高校准(auto-f0-adjust)
<li)音质保障:扩散步数达 50 步时获得录音棚级清晰度
<li)风格迁移:成功转换颤音、气声等演唱技巧特征
测试显示,将业余歌唱样本转换为专业歌手音色时,MOS 分数可达 4.2/5。该技术已用于歌曲 demo 制作,相比传统音高修正软件(如 Melodyne)具有更自然的音色融合效果。
This answer comes from the articleSeed-VC: supports real-time conversion of speech and song with fewer samplesThe