OmniInsertは、ByteDance Intelligent Creation Labによって開発された研究プロジェクトです。マスクを使用することなく、あらゆる参照オブジェクトを動画にシームレスに挿入するツールです。従来のビデオ編集プロセスでは、ビデオに新しいオブジェクトを追加したい場合、通常、手動でオブジェクトを縁取る正確な「マスク」を作成する必要があり、これは非常に複雑で時間のかかるプロセスです。OmniInsertの核となる機能は、拡散変換モデル(DTM)技術を使用してこのプロセスを自動化することです。ユーザーは、オリジナルのビデオと挿入したいオブジェクト(画像または別のビデオ)を提供するだけで、モデルがオブジェクトを新しいシーンに自然にブレンドします。照明、影、色を自動的に処理し、挿入されたオブジェクトがそのシーンにすでにあったかのように見えるようにする。このプロジェクトは、データの不足、被写体とシーンのブレンド、コーディネーションといった重要な課題に取り組むことを目的としており、次のようなプロジェクトを立ち上げた。 InsertBench
新しいルーブリックの効果を測定する。
機能一覧
- マスクレス挿入このコア機能により、ユーザーは手動でマスクを作成する必要がなくなり、モデルは自動的にターゲット映像に参照オブジェクトをシームレスに挿入します。
- 複数の参照ソースをサポート単一または複数の参照オブジェクトからの挿入をサポートし、参照は静止画像またはビデオクリップから行うことができます。
- シーンの統合挿入されたオブジェクトの照明、影、色調を自動的に調整し、ビデオ背景のスタイルに合わせて、調和のとれた視覚効果を実現します。
- 主要な外観は維持されているという名前のファイルを使う。
Subject-Focused Loss
技術により、挿入されたオブジェクトが鮮明なディテールと映像内の一貫した外観を維持することを保証します。 - コンテクストセンシティブ利用
Context-Aware Rephraser
このモジュールは、挿入されたオブジェクトが元のシーンによりよく統合されるように、ビデオのコンテキストを理解する。 - 自動化されたデータパイプラインプロジェクトは内部的に
InsertPipe
モデルトレーニングのための大量の多様なデータを自動的に生成できるデータパイプラインの。
ヘルプの使用
OmniInsertは現在研究プロジェクトであり、その推論コードはまだ公開されていない。そのため、一般ユーザーが直接ダウンロードしてインストールすることはまだできない。以下の内容は、公開されている技術報告書に基づいており、将来可能性のある使用プロセスや核となる技術原則の詳細な説明を提供し、ユーザーがどのように機能するかを理解できるようにしている。
使用目的プロセス
OmniInsertのコードがリリースされれば、その使用プロセスは非常にクリーンなものになると予想される。ユーザーは、Adobe After EffectsやDaVinci ResolveのDynamic Masking(Rotoscoping)技術のような専門的なビデオ編集ソフトウェアやスキルを必要としなくなる。
- 材料の準備::
- ターゲット・ビデオオブジェクトを追加したい動画ファイル(例えば、街並みの動画)を用意します。
- 参照オブジェクト挿入したいものが写っている写真やビデオを用意する(特定の人物の写真や、走っているペットのショートフィルムなど)。
- インプットを提供する::
- OmniInsertプログラムを起動する(コマンドライン・インターフェイスまたはシンプルなグラフィカル・インターフェイス)。
- ターゲットビデオ」のファイルパスと「参照オブジェクト」のファイルパスを指示に従って指定します。
- プライミング工程::
- generateコマンドを実行する。モデルは、参照オブジェクトの中心的な特徴を抽出しながら、ターゲットビデオの各フレームの分析を開始します。
- 自動フュージョンと生成::
- モデルは自動的に参照オブジェクトを認識し、ターゲット映像の適切な場所に「貼り付ける」。
- バックグラウンドでは、モデルが複雑な計算を行い、挿入されたオブジェクトのサイズ、角度、照明、色を調整して、元のビデオの一部のように見せます。例えば、元のビデオのシーンが薄暗い場合、挿入されたオブジェクトはそれに応じて暗くなります。
- 処理が完了すると、プログラムは新しいビデオファイルを出力する。この新しいビデオは、すでに挿入されたオブジェクトを含む結果である。
コア技術の原理分解
OmniInsertがどのようにして「マスクレス挿入」を実現するのかをユーザーに理解してもらうために、その背景にあるキーテクノロジーをわかりやすく紹介する:
- 拡散変圧器モデル
これがOmniInsertの技術的基礎である。高度に熟練した "修復画家 "と考えてほしい。拡散モデルは、画像がランダムな雪の結晶になるまで、クリアな画像に小さなノイズを繰り返し加えることで機能する。その後、このモデルは段階的に「元に戻す」、つまり雪の結晶から元の鮮明な画像を復元する方法を学習する。OmniInsertでは、このプロセスはビデオ生成に使用されます。モデルは単に画像を復元するだけでなく、画像を復元する過程で、条件として提供された「参照オブジェクト」と「ターゲットビデオ」に基づいて、ビデオにオブジェクトを巧みに描画します。このモデルは、単に画像を復元するだけでなく、画像を復元する過程で、あなたが条件として与えた「参照オブジェクト」と「ターゲット映像」に基づいて、映像の各フレームにオブジェクトを巧みに描画します。 - コンディション別フィーチャー・インジェクション
仕組みは複雑に聞こえるが、原理は単純だ。モデルは同時に2つのことを理解する必要がある。「ターゲット映像」のシーンがどのように見えるか、そして「参照オブジェクト」がどのように見えるかだ。この2つの情報を混同しないために、モデルはこの2つの情報を別々に注入するための異なる「チャンネル」を設計する。一方のチャンネルは映像の背景の特徴(シーンのレイアウトや照明など)に特化し、もう一方のチャンネルは参照オブジェクトの特徴(人物の外見や猫の毛色など)に特化する。こうすることで、被写体とシーンのバランスをとるために、モデルは「どこに何を置くべきか」を明確に知ることができる。 - プログレッシブ・トレーニング
ビデオの背景と挿入されたオブジェクトのバランスをうまくとるために、研究者たちは巧妙なトレーニング方法を用いた。トレーニングの初期段階では、モデルに参照オブジェクト自体に重点を置かせ、モデルがこのオブジェクトを正確に描画できるようにした。トレーニングの後半では、ターゲットとなるビデオシーンの比重を徐々に高めていき、モデルがこの描画された物体を周囲に自然に統合する方法を学習できるようにした。このプロセスは、絵を描くことを学ぶようなもので、まず人物を描くことを学び、次に風景の中の人物を描き、光と影の関係を扱うことを学ぶ。 - 挿入的選好最適化
人間にとってより審美的に好ましい結果を生み出すために、このプロジェクトでは人間の好みを模倣した最適化手法も導入している。研究者たちは、一連の採点基準を使って、どのような挿入が「良い」のか(例えば、継ぎ目がない、自然)、どのような効果が「悪い」のか(例えば、エッジが見える、照明が不一致)をモデルに伝えるかもしれない。このように微調整することで、モデルは徐々に学習し、よりリアルで見栄えのする動画を作成できるようになります。
アプリケーションシナリオ
- 映画とテレビのポストプロダクションと特殊効果
映画やテレビ番組の制作では、実写のシーンにCGで作られたキャラクターやオブジェクトを追加することがよくある。従来の方法では、コストと時間がかかります。OmniInsertを使えば、小さなスタジオや個人のクリエイターでも、実写映像にバーチャルなキャラクターや小道具を素早く追加することができ、特殊効果制作の敷居とコストを大幅に削減することができます。例えば、SF短編映画の場合、クリエイターは、街並みの映像にエイリアンのクリーチャーの写真を簡単に挿入することができます。 - 広告・マーケティング
広告主はこの技術を使って、「バーチャルなプロダクト・プレースメント」を実現できる。例えば、新しく発売された商品(飲料や携帯電話など)を、シーンを撮り直すことなく、既存の人気ビデオや映画クリップにシームレスに挿入することができる。これは費用対効果が高いだけでなく、異なる市場や視聴者に合わせて商品を素早く変更することができます。 - ソーシャルメディアとコンテンツ制作
ビデオブロガーやコンテンツクリエイターにとって、OmniInsertは強力な作成ツールを提供する。人気の絵文字やアニメのキャラクター、ウェブ上の面白い要素を簡単に動画に追加して、より多くの視聴者を惹きつけるクリエイティブで楽しいコンテンツを作成することができます。 - 個人的なレクリエーションと生活記録
一般ユーザーは、これを利用して楽しい家族ビデオを作成することができる。例えば、お子さんの誕生日パーティーのビデオにお気に入りのアニメ・キャラクターを挿入したり、家族の日常を記録したビデオにバーチャル・ペットを追加したりして、生活に楽しさを加えることができる。
品質保証
- OmniInsertは、従来のビデオ・キーイングやグリーン・スクリーン技術とどう違うのですか?
大きな違いは、OmniInsertは「キーイング」や「グリーンスクリーン」を必要としないことです。従来の技術では、被写体を簡単に分離するためにソリッドな背景(緑や青など)を必要としたり、ビデオ編集者が被写体を分離するためにフレームごとにマスクを手動で描画する必要がありましたが、OmniInsertは完全に自動化されており、無地の背景を持つ画像やビデオから直接被写体を識別し、別のビデオにシームレスにブレンドすることでプロセスを簡素化します。 - このツールはどんな種類のオブジェクトでも挿入できますか?
テクニカルレポートによれば、このモデルは「任意の参照オブジェクト」の挿入をサポートすることを意図している。つまり、キャラクターでも、動物でも、普通のオブジェクトでも、理論上は参照元として使用できる。単一のオブジェクトだけでなく、複数のオブジェクトにも対応している。ただし、最終的な結果は、参照オブジェクトの鮮明度、照明条件、ターゲット・ビデオ・シーンとのマッチングなどの要因に影響される可能性がある。 - OmniInsertは無料で使用できますか?コードはいつ公開されますか?
OmniInsertは研究プロジェクトであり、その研究論文は現在公開されている。GitHubのページによると、コード、モデル、そしてInsertBench
このレビューデータセットは、関連分野の研究を促進するため、将来的に一般公開される予定である。このプロジェクトはApache-2.0のオープンソースライセンスに従っており、いったん公開されれば、研究開発のために無償で利用できる可能性が高い。 - このツールを使用するには、どのようなコンピュータの設定が必要ですか?
具体的な要件は公式には発表されていないが、この拡散コンバーターが使用するモデルから、高い計算リソース、特に強力なGPU(グラフィックプロセッサ)と十分なグラフィックメモリ(VRAM)が必要になることが予想される。この種のモデルは通常、推論計算を実行する際にハードウェアへの要求が高くなるため、コンシューマーグレードやディスクリート・グラフィック・カードを搭載していないコンピューターでは、動作が非常に遅くなるか、あるいは実行不可能になる可能性さえある。