VisionStoryは、以下のコアテクノロジーにより、静止画のAIによる変換を可能にする:
- まず、ユーザーが正面から撮影した鮮明な写真(照明が均一で、遮蔽物がないものを推奨)をアップロードすると、システムが顔認識技術によって顔の特徴を抽出する。
- 次に、このプラットフォームは高度なフェイシャルモーションキャプチャーアルゴリズムを使用して、写真に写っている人物の50以上の微表情筋の動きの軌跡を生成します。
- ユーザーが入力したテキストは、自然言語処理技術によって音素列に変換され、リップシンク・アルゴリズムによって正確なマッチングが行われる。
- また、このシステムには、自然な頭の揺れやマイクロジェスチャーを自動的に生成する運動軌跡予測モデルが統合されており、デジタル人体の動きをよりリアルに再現することができる。
AIデジタル・ヒューマン・ビデオは、話すスピードや表情の強弱を調整できるほか、ムード・コントロール・オプションで全体的な表現スタイルを変えることもできる。
この答えは記事から得たものである。VisionStory:画像とテキストからAI説明ビデオを生成するについて





























