問題の背景
従来のTTSシステムによって生成された音声は、感情の起伏が乏しいことが多いが、CosyVoiceはきめ細かい感情制御ラベリングシステムによってこれを解決している。
具体的な実施プログラム
- 標準的なセンチメントラベルの挿入テキストに直接挿入
[laughter]そして[pause]などのラベルが貼られている:'他突然[laughter]停下来,因为被逗笑了[laughter]'
- コマンドコントロールの使用スルー
inference_instruct2このメソッドは、全体的なエモーショナルなスタイルを指定する:'用欢快的语气说这段话'
- リズミック強化テクニックトレーニング中に有効
--use_prosodyストレスとイントネーションの自然さを高めるパラメータ。
高度なテクニック
1.ラベルとコマンドを組み合わせてリッチなパフォーマンスを実現
2.参考文献tokenizer.py行 248タグ一覧を見る
3.映画やテレビの吹き替えシーンでは、感情ラベルをサウンドタイムラインに合わせることを推奨します。
この答えは記事から得たものである。CosyVoice:アリ・オープンソース多言語クローン作成ツールについて































