音声合成における感情表現を向上させるには？

2025-08-23

803

直接リンクモバイルビュー

問題の背景

従来のTTSシステムによって生成された音声は、感情の起伏が乏しいことが多いが、CosyVoiceはきめ細かい感情制御ラベリングシステムによってこれを解決している。

標準的なセンチメントラベルの挿入テキストに直接挿入[laughter]そして[pause]などのラベルが貼られている：
```
'他突然[laughter]停下来，因为被逗笑了[laughter]'
```
コマンドコントロールの使用スルーinference_instruct2このメソッドは、全体的なエモーショナルなスタイルを指定する：
```
'用欢快的语气说这段话'
```
リズミック強化テクニックトレーニング中に有効--use_prosodyストレスとイントネーションの自然さを高めるパラメータ。

1.ラベルとコマンドを組み合わせてリッチなパフォーマンスを実現
2.参考文献tokenizer.py行 248タグ一覧を見る
3.映画やテレビの吹き替えシーンでは、感情ラベルをサウンドタイムラインに合わせることを推奨します。