海外访问：www.kdjingpai.com

Ctrl + D 收藏本站

当前位置：首页 » AI答疑

什么是Muyan-TTS？它的核心功能有哪些？

2025-08-23

1.7 K

Muyan-TTS简介

Muyan-TTS是一款专为播客场景设计的开源文本转语音模型，基于Llama-3.2-3B架构构建，结合SoVITS解码器技术。该模型通过超过10万小时播客音频数据的预训练，能够生成高质量的自然语音输出。

核心功能

零样本语音合成：无需额外训练即可生成播客风格语音，支持多种音色模仿
个性化语音定制：通过少量（几十分钟）单人语音数据微调可生成特定speaker的语音
高效推理：在NVIDIA A100 GPU上每秒可生成约0.33秒音频，优于多数开源TTS模型
完整的开发生态：提供训练代码、数据处理管道和API部署工具

项目采用Apache 2.0许可证，模型权重和代码已在GitHub、Hugging Face和ModelScope平台开放。

本答案来源于文章《Muyan-TTS：个性化播客语音训练与合成》

相关文章

未经允许不得转载：AI生产力工具 » 什么是Muyan-TTS？它的核心功能有哪些？

相关推荐