Orpheus-TTSの感情コントロールは、3層の技術アーキテクチャによって実現されている:
- タグ解析レイヤこのシステムは、のような特殊なタグを認識し、32次元のセンチメント埋め込みベクトルにマッピングするXMLスタイルのタグパーサーを内蔵している。
- モデルアーキテクチャ層Llama-3bをベースとしたデコーダのみの構造を改良し、注意メカニズムに感情の重み付けを追加することで、タグが音声の基本周波数(F0)とエネルギーパラメータを動的に調整できるようにした。
- 音響モデリング層修正HiFi-GANボコーダーが使用され、その条件付き敵対的学習プロセスは、対応するパラ言語的特徴を含む波形を生成するための先験的条件として感情ベクトルを受け取る。
通常のTFSシステムと比較して、革新的な点は、1)非言語的特徴処理をエンド・ツー・エンドのプロセスに統合すること、2)教師なしクラスタリングにより、共通の感情パターンの音響的特徴(例えば、笑いの高調波歪みパターン)を発見することである。実用的なテストでは、同じテキストの下にタグを追加することで、生成音声のJitter(ジッター率)を37%向上させることができ、より実際の笑いの特徴に近づけることができました。
この答えは記事から得たものである。Orpheus-TTS:自然な中国語音声を生成する音声合成ツールについて
































