Orpheus-TTS的情感控制通过三层技术架构实现:
- 标签解析层:系统内置XML风格标签解析器,识别如<laugh>等特殊标记,将其映射为32维情感嵌入向量
- 模型架构层:基于Llama-3b的decoder-only结构改进,在注意力机制中增加了情感权重门控,使得标签能动态调整语音的基频(F0)和能量(Energy)参数
- 声学模型层:采用改进的HiFi-GAN声码器,其条件对抗训练过程会接收情感向量作为先验条件,从而生成包含对应副语言特征的波形
与普通TFS系统相比,其创新点在于:1)将非语言特征处理整合到端到端流程中;2)通过无监督聚类发现常见情感模式的声学特征(如笑声的谐波失真模式)。实际测试显示,在相同文本下添加<laugh>标签可使生成语音的Jitter(抖动率)提升37%,更接近真实笑声特征。
Essa resposta foi extraída do artigoOrpheus-TTS: uma ferramenta de conversão de texto em fala para gerar fala natural em chinêsO