Wan2.2-S2V-14Bは、Wan-AIチームによって開発された大規模なAIモデルで、音声、テキスト、画像に基づいて高品質のビデオを生成するために特別に開発されました。 革新的なMoE(Mixed Expert)アーキテクチャを採用し、モデルには27Bのパラメータがありますが、実行時にアクティブになるのは14Bのパラメータのみで、性能と計算コストのバランスを効果的に取っています。 このモデルのコア機能は「音声駆動」であり、入力された音声コンテンツを、ユーザーが提供したテキスト説明と参照画像と組み合わせて、動的なビデオ画像に変換することができます。 Wan2.2-S2V-14Bは、生成されるビデオの「映画のような美学」に特に注意を払っており、照明、構図、色彩の高いレベルを達成するために、選択された美的データに基づいて訓練されています。 また、ジェスチャー映像で生成映像の登場人物の動きを誘導するジェスチャーコントロール機能にも対応しており、より自由度の高い映像制作が可能です。
機能一覧
- 音声駆動ジェネレーションオーディオファイルをコアドライバーとして使用し、テキストキューや参照画像と組み合わせて、オーディオコンテンツと同期したビデオを生成します。
- 映画の美学モデルたちは、プロフェッショナルなライティング、構図、トーンのビデオを制作するために、特別な美的データを使ってトレーニングされています。
- 高解像度出力480Pと720Pの解像度でビデオを生成し、さまざまなシーンの鮮明度のニーズを満たす。
- 姿勢制御ユーザーが特定のアクションを含むビデオ(ポーズビデオ)を提供することで、モデルがそのアクションシーケンスに基づいたビデオを生成し、キャラクターのポーズを正確に制御することができます。
- ハイブリッド・エキスパート・アーキテクチャ(MoE)効率的なMoEアーキテクチャを採用することで、強力な生成能力を確保しながら、比較的低い計算資源消費量を維持することができます。
- 柔軟な入力の組み合わせ音声と画像だけでなく、テキストの説明を追加することもできます。
- 適応的なビデオの長さ特にパラメータが設定されていない場合、生成されるビデオの長さは入力音声の長さに応じて自動的に調整されます。
ヘルプの使用
Wan2.2-S2V-14Bモデルには、詳細なインストールと使用プロセスが用意されており、ユーザーはすぐに導入して動画生成を開始することができます。
1.環境の準備と設置
まず、GitHubから公式コードリポジトリをクローンし、必要な依存ライブラリをインストールする必要がある。
ステップ1:コードリポジトリをクローンする
ターミナルを開き、以下のコマンドを実行してプロジェクトコードをローカルにダウンロードする:
git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2
ステップ 2: 依存関係のインストール
プロジェクトの依存関係torch
バージョンは以下のものでなければならない。2.4.0
.次にpip
取り付けrequirements.txt
ファイルにリストされているすべてのライブラリ。
pip install -r requirements.txt
銘記するインストール中にflash_attn
パッケージのインストールに失敗した場合は、まず他のパッケージをすべてインストールしてから、個別にインストールしてください。flash_attn
.
2.モデルダウンロード
モデルファイルはhuggingface-cli
もしかしたらmodelscope-cli
ダウンロードする。
ハギング・フェイスCLIでダウンロード (をインストールする必要があります。huggingface_hub
):
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.2-S2V-14B --local-dir ./Wan2.2-S2V-14B
ModelScope CLI によるダウンロード (をインストールする必要があります。modelscope
):
pip install modelscope
modelscope download Wan-AI/Wan2.2-S2V-14B --local_dir ./Wan2.2-S2V-14B
コマンドを実行すると、モデルのウェイトやその他の関連ファイルが、カレントディレクトリのWan2.2-S2V-14B
フォルダー
3.ビデオの作成:プロセスとコマンド
このモデルは、シングルGPU推論やマルチGPU分散推論など、複数の動画生成モードをサポートしている。
シナリオ1:基本的な音声ビデオ生成(シングルGPU)
これは最も基本的な使い方で、十分なビデオメモリがあるユーザーに向いている(公式のヒントでは、少なくとも80GBのVRAMが必要)。
コマンド形式::
python generate.py --task s2v-14B --size 1024*704 --ckpt_dir ./Wan2.2-S2V-14B/ --offload_model True --convert_model_dtype --prompt "一个文本描述" --image "参考图片路径" --audio "音频文件路径"
パラメータ詳細::
task s2v-14B
Speech-to-Video タスクの使用を指定します。size 1024*704
生成する映像の解像度を設定します。ビデオのアスペクト比は、入力された参照画像に応じて自動的に調整されます。ckpt_dir ./Wan2.2-S2V-14B/
ダウンロードしたモデルファイルのパスを指定します。offload_model True
ビデオメモリを節約するために、モデルの一部のコンポーネントをCPUにオフロードします。convert_model_dtype
パフォーマンスを最適化するためにモデルのパラメータタイプを変換します。prompt "..."
: ビデオのスタイル、内容、または主題を説明するテキストキューを入力します。例"夏日海滩度假风格,一只戴着太阳镜的白猫坐在冲浪板上。"
.image "..."
参照画像へのパスを指定します。"./examples/i2v_input.JPG"
.モデルは、このイメージのスタイルと主題に基づいて作成される。audio "..."
ドライブビデオによって生成されたオーディオファイルへのパスを指定します。"./examples/talk.wav"
.
典型例::
python generate.py --task s2v-14B --size 1024*704 --ckpt_dir ./Wan2.2-S2V-14B/ --offload_model True --convert_model_dtype --prompt "夏日海滩度假风格,一只戴着太阳镜的白猫坐在冲浪板上。" --image "examples/i2v_input.JPG" --audio "examples/talk.wav"
シナリオ2:姿勢駆動型スピーチ・ビデオ生成
生成されたビデオのキャラクターや被写体を特定の動作に従わせたい場合は、ジェスチャー駆動機能を使用できます。
コマンド形式::
torchrun --nproc_per_node=8 generate.py --task s2v-14B --size 1024*704 --ckpt_dir ./Wan2.2-S2V-14B/ --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "一个文本描述" --image "参考图片路径" --audio "音频文件路径" --pose_video "姿态视频路径"
新しいパラメータ::
pose_video "..."
ポーズ参照ビデオのパスを指定する。"./examples/pose.mp4"
.モデルはこのビデオからアクションシーケンスを抽出し、新しく生成されたビデオに適用する。
典型例::
torchrun --nproc_per_node=8 generate.py --task s2v-14B --size 1024*704 --ckpt_dir ./Wan2.2-S2V-14B/ --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "一个人正在唱歌" --image "examples/pose.png" --audio "examples/sing.MP3" --pose_video "./examples/pose.mp4"
このコマンドは通常、より良いパフォーマンスのためにマルチGPU環境で実行される。
アプリケーションシナリオ
- デジタルピープルとバーチャル・アンカー
事前に録音された音声やリアルタイムの音声入力に基づいて、口の形と自然な表情を同期させたバーチャル・キャスター画像を生成し、ジェスチャー・ビデオで動きを制御することができる。 - ビデオ・コンテンツの自動制作
ブログ記事、プレスリリース、小説などのテキストコンテンツを、適切なBGMやナレーションと組み合わせて自動的に動画に変換します。これにより、ソーシャルメディアや広告、マーケティングにおけるコンテンツ制作の効率が大幅に向上します。 - ミュージックビデオ(MV)制作
音楽クリエイターは、自分の楽曲を入力し、楽曲の雰囲気に合った参考画像やテキスト説明を提供することで、アーティスティックな雰囲気のミュージックビデオを素早く生成することができ、インディーズミュージシャンに低コストでのMV制作ソリューションを提供する。 - パーソナル・オーディオブック
童話の音声ナレーションとイラスト風の参考図面を組み合わせることで、鮮やかなアニメーションのストーリービデオを作成できます。保護者や教育機関は、子ども向けにカスタマイズした映像読み聞かせ教材を簡単に作成できます。
品質保証
- このモデルを動かすのに必要なハードウェアは何ですか?
シングルGPU環境で14Bのパラメータを持つモデルを実行するには、少なくとも80GBのグラフィックメモリ(VRAM)が必要です。ビデオメモリが十分でないユーザーには、マルチGPU構成を使用して計算圧力を分担することが公式に推奨されています。 - 生成されるビデオの長さはどのように決まるのですか?
デフォルトでは、入力オーディオファイルの長さに応じて、生成されるビデオの長さが自動的に調整されます。指定した長さのクリップを素早くプレビューまたは生成したい場合は--num_clip
パラメータを使用して、生成されるビデオクリップの数を制御します。 - テキスト、画像、音声を同時に提供する必要がありますか?
そうではない。このモデルの核となるドライバーは音声だが、入力を組み合わせる柔軟性がある。最も一般的な使い方は、音声と参照画像を組み合わせることで、ビデオ生成のスタイルや内容に関するさらなるガイダンスのためのテキストプロンプト(促し)はオプションである。 - アティテュード・コントロール機能はどのようなビデオに対応していますか?
姿勢制御機能は--pose_video
パラメータの実装では、入力ビデオ内の人体や物体のアクションシーケンスを認識する。理論的には、明確なアクションを含む任意のビデオを入力として使用することができ、モデルは生成されたビデオでこれらのアクションを再現しようとする。