超长音频合成的应用革命
传统TTS系统受限于内存和计算效率,单次生成通常在10分钟以内。VibeVoice通过:1)分块缓存机制 2)动态内存管理 3)流式生成管道这三大技术创新,将连续生成上限突破至90分钟,相当于完整的有声书章节或播客单集。实际测试显示,生成90分钟4人对话音频仅需RTX4090显卡23分钟,效率较拼接式生成提升8倍。这项能力直接改变了音频内容的工业化生产流程。
Essa resposta foi extraída do artigoVibeVoice-1.5B:微软出品的支持长音频多角色对话的语音生成模型O