ChatAnyoneの基本的な技術アーキテクチャ
ChatAnyoneは、HumanAIGCチームによるデジタル人物生成分野における重要な革新である、最先端の階層的モーション拡散モデルをコア技術フレームワークとして使用しています。このモデルは、拡散アルゴリズムの多段階処理能力を通じて、静的な画像と音声入力を首尾一貫したモーションシーケンスに変換します。1)頭部運動レイヤーは自然な頭部の回転を生成する役割を担い、2)ジェスチャー運動レイヤーは人間の上肢のボディランゲージをシミュレートし、3)表情レイヤーは顔の微表情が発話内容と同期することを保証する。このレイヤー設計により、システムは異なる身体部位のモーション・パラメータを並行して処理することができ、従来の単一レイヤーLSTM方式よりもバイオメカニクス的に正しいモーション・シーケンスを生成することができる。
技術デモンストレーションでは、NVIDIA 4090 GPU環境において、解像度512×768、30FPSのビデオストリームを安定的に出力することができ、このアーキテクチャの工学的な実現可能性を証明した。このプロジェクトのGitHubページによると、動作拡散モデルは、様々な文化的背景からのボディランゲージの特徴を含む1,000時間以上のアノテーションされたモーションデータを使用してトレーニングされた。現在のコードは完全にオープンソース化されているわけではないが、技術的なルートはデジタルヒューマン分野に学習可能なソリューションを提供した。
この答えは記事から得たものである。ChatAnyone:写真から半身のデジタル人物ビデオを生成するツールについて































