マルチモーダル入力を用いた知的行動生成システム
ChatAnyoneは、従来のキーフレームアニメーションのパラダイムを打ち破り、音声信号を体の動きにエンドツーエンドでマッピングします。1)音声リズム分析モジュールが基本周波数やエネルギーなどの音響特徴を抽出し、2)意味理解モジュールが発話のストレスや感情傾向を特定し、3)ジェスチャー生成モジュールがこれらの特徴を社会的エチケットに適合するジェスチャーパラメータに変換します。テストデータによると、システムが生成したジェスチャーを発話の焦点と一致させる精度は80%に達し、業界平均の65%を上回った。
手動でアニメーションカーブを設計する必要がある従来のソリューションに比べ、本システムは、うなずき(肯定文)や手を広げる(質問調)など、人間のコミュニケーション習慣に沿った動作を自動的に生成する。特に長時間の音声処理の場合、機械的な繰り返しにならないよう、アテンション機構によって動作のテンポが変化するようにしている。現在のバージョンでは、リアルタイムのインタラクション機能はまだ開放されていないが、その前処理生成モードは、すでに録音コンテンツ制作のニーズを満たすことができる。
この答えは記事から得たものである。ChatAnyone:写真から半身のデジタル人物ビデオを生成するツールについて































