海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

什么是Llasa-3B模型?它的主要开发者是谁?

2025-09-10 2.0 K

Llasa-3B是由香港科技大学音频实验室(HKUST Audio)开发的一个开源文本转语音(TTS)模型。它基于Llama 3.2B架构,经过细致调优,旨在提供高质量的语音生成服务。该模型不仅支持将文字转换成自然流畅的声音,还具备情感表达和个性化语音克隆等先进功能。

Llasa-3B的主要特点包括:

  • 支持中文和英语等多种语言
  • 能够实现情感表达,提升语音的真实性
  • 仅需15秒的音频片段即可克隆特定人声
  • 提供1B和3B参数规模模型,未来还将推出8B模型
  • 所有模型均提供开放权重,支持Transformers和vLLM框架

该模型以其在自然语音合成方面的表现力和灵活性,已经成为研究人员和开发者关注的热点项目,可以通过Hugging Face平台体验和使用。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文