Dia 简介与功能概述
Dia 是由 Nari Labs 开发的一款开源文本转语音(TTS)模型,专注于生成超现实的多角色对话音频。其核心功能包括:
- Geração de diálogos surreais:通过指定标记(如[S1],[S2])区分不同说话者,一次处理即可输出完整对话。
- 语音控制技术:支持通过音频提示或固定种子调节语调情感,还能生成笑声、停顿等非语言表达。
- arquitetura de código aberto:基于16亿参数模型,代码和预训练模型均托管在Hugging Face和GitHub平台。
该项目采用Gradio可视化界面降低使用门槛,同时提供API满足开发者需求,核心技术受到SoundStorm等前沿研究的启发。
Essa resposta foi extraída do artigoDia: um modelo de conversão de texto em fala para gerar diálogos hiper-realistas para vários jogadoresO