Quais são os princípios básicos do Orpheus-TTS para obter o controle das emoções?

2025-08-25

1.5 K

Link diretoVisualização móvel

Orpheus-TTS的情感控制通过三层技术架构实现：

标签解析层：系统内置XML风格标签解析器，识别如<laugh>等特殊标记，将其映射为32维情感嵌入向量
模型架构层：基于Llama-3b的decoder-only结构改进，在注意力机制中增加了情感权重门控，使得标签能动态调整语音的基频(F0)和能量(Energy)参数
声学模型层：采用改进的HiFi-GAN声码器，其条件对抗训练过程会接收情感向量作为先验条件，从而生成包含对应副语言特征的波形

与普通TFS系统相比，其创新点在于：1）将非语言特征处理整合到端到端流程中；2）通过无监督聚类发现常见情感模式的声学特征（如笑声的谐波失真模式）。实际测试显示，在相同文本下添加<laugh>标签可使生成语音的Jitter（抖动率）提升37%，更接近真实笑声特征。

Ferramenta de IA da estação de consulta rápida