海外からのアクセス：www.kdjingpai.com

Ctrl + D このサイトをブックマークする

現在の場所図頭 " AIアンサー

CosyVoiceのきめ細かなセンチメントコントロールは、8クラスのパラ言語マーカーをサポートします。

2025-08-23

797

直接リンクモバイルビュー

感情音声合成における工学的イノベーション

CosyVoiceは、音声合成分野で初めて記号タグに基づくリアルタイム感情制御を実現し、Tokenizerモジュールは、[笑い][泣き][pause=200ms]など8種類のパラリングタグをプリセットし、50msレベルの精度で韻律調整をサポートする。技術的なスキームでは、マルチレベルの条件付き敵対的学習が使用されている：

基本的な特徴ピッチ-輪郭予測ネットワークを用いた感情的韻律のモデリング
中レベルのコントロール韻律トークンを介した言語間感情移動
上位層アプリケーションstyle=happy]のようなセマンティック・レベルのコントロールのためのオープン・インターフェイス。

経験データによれば、[笑い]タグを追加することで、合成音声の快感スコアを42%向上させることができ、ポーズマークの誤差は±10ms以下である。この機能をゲームNPC対話システムに適用したところ、従来の感情音声合成方式と比較して、アノテーションコストを90%削減することができた。

この答えは記事から得たものである。CosyVoice：アリ・オープンソース多言語クローン作成ツールについて

無断転載を禁じます：AI生産性ツール " CosyVoiceのきめ細かなセンチメントコントロールは、8クラスのパラ言語マーカーをサポートします。

おすすめ