顔の一貫性を最適化する具体的な方法
オープンソースの動画生成ツールであるOpen-Soraは、キャラクターの顔の一貫性の観点から、以下のソリューションを提供しています:
- 画像からビデオへのパイプラインの使用直接テキストを生成する場合に比べ、テキスト生成の段階で高画質の文字顔画像を出力し、それを参照画像として動画生成プロセスに投入することで、顔の安定性を大幅に向上させることができます。
- スポーツの採点パラメータの調整motion-scoreパラメータは、高すぎる値が顔の変形を引き起こすのを避けるため、3から5の間(デフォルトは4)になるように制御される。テストによると、motion-score=3のときに最も自然な顔の変化が起こりました。
- 基準フレーム制御技術i2v生成コマンドに-keyframe-intervalパラメータ(例えば10に設定)を追加し、モデルに元の顔の特徴を定期的に参照させる。
- 高解像度優先768pxのモデルは、256pxのモデル37%よりも顔のディテールを保持する。
- 商業版プログラムビデオオーシャンは、顔の一貫性アルゴリズムを強化しており、補完的なソリューションとして考えることができます。
この答えは記事から得たものである。Open Sora:顔の一貫性を最適化するオープンソースのビデオ生成ツールについて