OmniAvatarは浙江大学とアリババが共同開発したオープンソースプロジェクトで、音声入力による全身アバター動画の生成に焦点を当てている。OmniAvatarは、ポッドキャスト、インタラクティブな対話、ダイナミックなパフォーマンスなど、さまざまなシナリオでのビデオ生成をサポートしている。OmniAvatarは、ピクセルレベルのマルチレベル音声埋め込みとLoRAトレーニング手法により、リップシンクの精度と動きの自然さを向上させます。OmniAvatarは、映画、テレビ、ゲーム、ソーシャルメディアコンテンツの制作に適しており、高品質のアバターアニメーションを生成します。
機能一覧
- オーディオ・ドリブン・ビデオ・ジェネレーション入力された音声をもとに、音声に高度に同期した唇の動きとともに、アバターの全身アニメーションを生成します。
- テキストプロンプトコントロールテキストコマンドによるアバターの感情、動き、背景環境のコントロールをサポート。
- 多言語リップシンク中国語、英語、日本語を含む31言語のリップシンクに対応。
- 全身コーディネーション自然な肩の動き、ジェスチャーのリズム、その他の全身アニメーションを生成します。
- シーン・インタラクションのサポートアバターはシーン内のオブジェクトとインタラクションすることができるので、商品のデモンストレーションなどのシーンに適しています。
- 複数の解像度出力別の装置の必要性のために適した 480p ビデオ生成を支えて下さい。
- オープンソースモデルのサポート異なるハードウェア構成に合わせて、1.3Bと14Bのパラメーターモデルが利用可能。
ヘルプの使用
設置プロセス
OmniAvatarを使用するには、実行環境をローカルに設定し、事前学習済みモデルをダウンロードする必要があります。以下は、インストールと使用に関する詳細な手順です:
- プロジェクトコードの複製
ターミナルで以下のコマンドを実行し、OmniAvatarコードリポジトリをクローンする:git clone https://github.com/Omni-Avatar/OmniAvatar.git
クローニングが完了したら、プロジェクト・ディレクトリに移動する:
cd OmniAvatar
- 依存関係のインストール
このプロジェクトにはPython環境と特定の依存ライブラリが必要です。以下のコマンドを実行して、PyTorchとその他の依存ライブラリをインストールしてください:pip install torch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 --index-url https://download.pytorch.org/whl/cu124 pip install -r requirements.txt
高性能GPUをお持ちの場合は、オプションで
flash_attn
加速するアテンション・コンピューティング:pip install flash_attn
- 訓練済みモデルのダウンロード
OmniAvatarは、Wan2.1-T2V-14B、wav2vec2-base-960h、OmniAvatar-14Bなど、いくつかの事前に訓練されたモデルに依存しています。huggingface-cli
ダウンロードmkdir pretrained_models pip install "huggingface_hub[cli]" huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./pretrained_models/Wan2.1-T2V-14B huggingface-cli download facebook/wav2vec2-base-960h --local-dir ./pretrained_models/wav2vec2-base-960h huggingface-cli download OmniAvatar/OmniAvatar-14B --local-dir ./pretrained_models/OmniAvatar-14B
ハードウェアのリソースが限られている場合は、1.3Bパラメトリックモデルを選択し、同様の方法でダウンロードすることができます。
- 入力ファイルの準備
入力ファイル(例えばinfer_samples.txt
)にオーディオファイルのパスとテキストプロンプトを入力します。例audio_path: examples/audio/sample.wav prompt: "A happy person speaking in a bright room"
オーディオファイルのフォーマットがWAVであり、テキストキューがキャラクターのムード、アクション、設定を明確に描写していることを確認してください。
- 推論スクリプトの実行
利用するtorchrun
推論スクリプトを実行してビデオを生成する。14Bモデルの場合:torchrun --standalone --nproc_per_node=1 scripts/inference.py --config configs/inference.yaml --input_file examples/infer_samples.txt
1.3Bモデルの場合:
torchrun --standalone --nproc_per_node=1 scripts/inference.py --config configs/inference_1.3B.yaml --input_file examples/infer_samples.txt
出力ビデオは指定されたフォルダに保存されます。
results
ミディアム)。
主な機能
- オーディオ・ドリブン・ビデオの生成
ユーザーはリファレンス画像とオーディオクリップを用意する必要があります。参照画像はアバターの外見を定義するために使用され、音声は唇と全身の動きを駆動します。推論スクリプトを実行した後、システムは音声に基づいて、口唇の動きがスピーチのリズムに高度にマッチした同期ビデオを生成する。例えば、ユーザーがスピーチの音声を入力すると、OmniAvatarはキャラクターが話すときの自然なジェスチャーや表情を生成します。 - テキストプロンプトコントロール
テキストプロンプトを使って、ユーザーはアバターの感情(例:"幸せ "や "怒り")、行動(例:"手を振る")、背景(例:"ビーチ")をコントロールできる。「beach "など)。手がかりは、例えば「森の中で踊っている驚いた人」のように、明確で具体的なものでなければならない。システムはキューに従ってアニメーションの細部を調整する。 - 多言語サポート
OmniAvatarはWav2Vec2を使用して音声特徴を抽出し、31言語のリップシンクをサポートしています。ユーザーはサポートされている言語のどれでも音声を入力することができ、追加設定なしで対応する唇の動きをシステムが自動的に生成します。 - シーン・インタラクション
テキストプロンプトにオブジェクトのインタラクション記述(例えば「コップを持つ」)を追加することで、アバターはシーンオブジェクトとインタラクションすることができ、電子商取引の表示やプロットアニメーションに適している。
ほら
- ハードウェア要件14Bモデルは高性能GPU(A6000など)を必要とし、1.3Bモデルは8GBのVRAMを搭載したコンシューマーグレードのハードウェアに適しています。
- 発電速度14BモデルはシングルGPUで1フレームあたり約30秒かかりますが、1.3Bモデルはより高速で、ローエンドのデバイスに適しています。
- 出力チェックビデオ生成後、出力フォルダ内のMP4ファイルをチェックし、唇が同期しているか、動きが自然であるかを確認する。
アプリケーションシナリオ
- ポッドキャスト・ビデオ制作
ユーザーはポッドキャストの音声をアバター動画に変換して視覚的な魅力を高めることができ、OmniAvatarは唇の動きと音声の同期を保証するため、高品質のポッドキャスト・コンテンツを迅速に制作するのに理想的です。 - 仮想アンカー生成
ソーシャル・メディア・クリエイターは、OmniAvatarを使用して、ライブまたは短いビデオ・プラットフォーム用に、ムードやコンテキストのリアルタイム・テキスト・コントロールをサポートしたバーチャル・アンカー・パフォーマンス・ビデオを生成することができる。 - 映画、テレビ、ゲームアニメーション
映画、テレビ、ゲームの開発者は、OmniAvatarを使用することで、キャラクターアニメーションを素早く生成し、従来のアニメーションのコストを削減することができます。 - Eコマース製品ショーケース
シーンインタラクション機能により、アバターは商品(衣服や電子機器など)を表示することができ、マーケティングコンテンツの臨場感を高めることができる。
品質保証
- OmniAvatarはどの言語の音声入力をサポートしていますか?
中国語、英語、日本語など31言語に対応。Wav2Vec2モデルでリップシンクを保証。 - それを実行するにはどのようなハードウェア構成が必要ですか?
1.3Bモデルでは最低8GBのVRAMが必要で、14BモデルではデータセンタークラスのGPU(A6000など)を推奨している。 - 生成されたビデオの解像度は?
現在は480pの解像度をサポートしているが、将来的にはより高解像度に拡大する可能性もある。 - どうすればジェネレーション・スピードを改善できますか?
1.3Bモデルを試すか、インストールするflash_attn
加速するアテンション・コンピューティング。