超长音频合成的核心技术突破
VibeVoice突破传统TTS的长度限制主要依靠三项关键技术:
1. 连续语音分词器技术
- 双模态分词:同时处理声学特征(mel频谱)和语义特征(文本嵌入)
- 超低帧率:7.5Hz处理频率比传统25-50Hz方案降低3-6倍计算量
- context window:采用滑动窗口机制实现对长文本的分块连贯处理
2. 分层生成架构
模型采用两阶段生成流程:
第一阶段:LLM分析对话结构和语义关系,输出带情感标记的中间表示
第二阶段:扩散模型根据中间表示逐步生成高保真波形,通过噪声预测迭代优化细节
3. 显存优化策略
- 梯度检查点技术降低显存占用
- 动态批处理对不同长度音频自动分组
- 采用FP16混合精度训练
这些技术使模型在2080Ti显卡(11GB显存)上即可完成90分钟音频的端到端生成。
This answer comes from the articleVibeVoice-1.5B:微软出品的支持长音频多角色对话的语音生成模型The