MegaTTS3 是由字节跳动与浙江大学联合开发的一款开源语音合成工具,专注于生成高质量的中英文语音。该模型的核心特点包括:
- 轻量化高效:核心模型仅0.45B参数,运行效率高
- 多语言支持:完美支持中文、英文及混合语音生成
- 语音克隆:通过少量音频即可模仿特定音色
- 口音控制:可调整发音标准度,生成带口音或标准发音
- 先进技术:采用acoustic latents技术提升训练效率,配合高品质WaveVAE声码器
作为开源项目,它不仅提供完整代码,还包含预训练模型,适合学术研究和商业应用。相比传统TTS系统,MegaTTS3在保留小模型优势的同时,实现了专业级的语音合成质量。
本答案来源于文章《MegaTTS3:合成中英文语音的轻量模型》