Llasa-3B是由香港科技大学音频实验室(HKUST Audio)开发的一个开源文本转语音(TTS)模型。它基于Llama 3.2B架构,经过细致调优,旨在提供高质量的语音生成服务。该模型不仅支持将文字转换成自然流畅的声音,还具备情感表达和个性化语音克隆等先进功能。
Llasa-3B的主要特点包括:
- 支持中文和英语等多种语言
- 能够实现情感表达,提升语音的真实性
- 仅需15秒的音频片段即可克隆特定人声
- 提供1B和3B参数规模模型,未来还将推出8B模型
- 所有模型均提供开放权重,支持Transformers和vLLM框架
该模型以其在自然语音合成方面的表现力和灵活性,已经成为研究人员和开发者关注的热点项目,可以通过Hugging Face平台体验和使用。
Essa resposta foi extraída do artigoLlasa 1~8B: um modelo de conversão de texto em fala de código aberto para geração e clonagem de fala de alta qualidadeO