Story2Boardは、自然言語で書かれたテキストストーリーを、首尾一貫した表現力豊かなビジュアルストーリーボードに自動的に変換する、学習不要のAIフレームワークです。Story2Boardは、従来のAI描画ツールが、連続した画像を生成する際に、キャラクター画像とシーンスタイルの一貫性を維持するのに苦労することが多いという問題を解決します。主人公が異なる画像でも同じ外見を維持するようにし、同時に構図、背景の変化、物語のテンポを考慮することで、映画のようなビジュアルストーリーを生成します。このツールは、「潜在パネル・アンカリング」と呼ばれる技法を用いてキャラクターの特徴を狙い、「相互注目値ブレンド」を用いて異なるフレーム間で視覚的要素をブレンドすることで、基礎となるAIモデルを修正することなく、ストーリーテリングと物語の一貫性を大幅に改善します。これにより、基礎となるAIモデルを修正することなく、ストーリーボードの一貫性と物語効果を大幅に改善します。映画制作者、脚本家、コンテンツ制作者にとって、これはテキストのアイデアを素早く視覚化するための便利なツールです。
機能一覧
- テキストからスクリプトへの変換ユーザによって入力された自然言語ストーリーは、大規模言語モデル(LLM)によって、各フレームに適した特定のプロンプト(Prompts)に自動的に解析される。
- 役割の一貫性の維持潜在的パネル・アンカーは、ストーリーの中の同じキャラクターが、連続するすべてのフレームにわたって一貫した外観とアイデンティティを維持するために使用されます。
- シーンの一貫性の向上RAVM(Reciprocal Attention Value Mixing)テクニックは、異なる映像の視覚的特徴を緩やかにブレンドし、より自然な場面転換と首尾一貫したストーリーテリングを実現する。
- モデルのトレーニングは不要ユーザーは、"train-as-you-go "フレームワークとして、AIモデルを再トレーニングしたり微調整したりする必要がなく、以下のような既存の最先端のVincennesモデルを直接構築することができます。 フラックス.1-dev)が使用されている。
- 柔軟なシナリオ記述基準フレームとそれ以降のフレームの独立した記述をサポートすることで、ユーザーは分割画面の各フレームの内容(キャラクターの動き、表情、背景環境など)を正確にコントロールすることができます。
- 再現性のある結果生成された画像と、その画像生成に使用された特定のキュー・ワードは、出力ディレクトリに一緒に保存されるため、ユーザーは簡単にアクセスし、結果を再現することができます。
ヘルプの使用
Story2Boardは、ストーリーを説明するテキストを入力することで、一連の画面分割画像を生成するコマンドラインツールです。以下、詳しいインストール方法と使用方法を説明します。
環境準備
これを使う前に、実行環境を設定する必要がある。公式には、他のプロジェクトの依存ライブラリとの衝突を避けるために、Condaを使って別のPython環境を作ることを推奨しています。
- コンダのインストール
まだCondaをインストールしていない場合は、Anacondaの公式ウェブサイトからダウンロードしてインストールしよう。 - プロジェクト・ウェアハウスのクローン
ターミナルを開きgit
コマンドでStory2Boardのコードをローカルにクローンする。git clone https://github.com/DavidDinkevich/Story2Board.git
- プロジェクト・ディレクトリに移動する
cd Story2Board
- Conda環境の作成と有効化
以下のコマンドを使用してstory2board
で、Pythonのバージョン3.12を指定する。conda create -n story2board python=3.12
環境が正常に作成されたら、環境をアクティブにします:
conda activate story2board
- 依存ライブラリのインストール
プロジェクトに必要な依存ライブラリはrequirements.txt
ファイルを使用してください。ファイルを使用する。pip
コマンドでインストールする。pip install -r requirements.txt
注意を引くNVIDIAのグラフィックカードを持っていて、アクセラレーションにCUDAを使いたい場合は、PyTorchのウェブサイトの指示に従って、グラフィックカードのドライバをサポートするバージョンのPyTorchをインストールし、上記の
pip install
コマンドを実行します。これにより、PyTorchのCUDAバージョンが正しく一致するようになります。
使用方法
Story2Boardの中核にあるのは、次のようなシステムだ。 main.py
Pythonスクリプト。生成したいストーリーを記述した必要な引数とともにコマンドラインから実行する必要がある。
コア・パラメータの説明
--subject
物語の主人公を指定する。この描写は、そのキャラクターがすべてのサブプロットで一貫していることを確認するために使われるため、非常に重要である。例えば、「笑顔の少年」や「毛並みがつやつやで、目がきらきらしているキツネ」など。--ref_panel_prompt
参照画面の説明。これはストーリーの開始画面であり、それ以降のすべての画面における人物描写の基準となる。説明にはシーンとキャラクターの行動を含める必要がある。--panel_prompts
他の分割画面の説明。1つまたは複数の説明を提供することができ、それぞれが新しいサブプロットシーンに対応します。これらの説明では、主人公の詳細な特徴に繰り返し言及する必要はなく、彼の新しい行動と新しいシーンを説明するだけでよい。--output_dir
生成されたイメージとログが保存されるパスを指定します。
使用手順
- ストーリーを構想する
まず、簡単なストーリーを考え、主人公のイメージを特定する。ストーリーをいくつかの重要なイメージに分解する。 - コマンドラインの書き方
ターミナルを開きstory2board
環境を作成します。そして、次のような形式でコマンドを書く:python main.py --subject "你的主角描述" \ --ref_panel_prompt "参考画面的描述" \ --panel_prompts "第1个后续画面的描述" "第2个后续画面的描述" "第3个后续画面的描述" \ --output_dir "保存结果的文件夹路径"
具体例
魔法のキツネが登場する公式のストーリーの具体例を見てみよう。
主人公たち::fox with shimmering fur and glowing eyes
(輝く毛並みとギョロッとした目をしたキツネ)
ストーリーボード:
- 参照フレームキツネは黄昏の森に入り、苔むした石の道に足を踏み入れた。
- スクリーン2キツネは倒木を飛び越え、眼下には雲に覆われた渓谷が広がっていた。
- スクリーン3:: キツネは古代の石でできた壊れたアーチにとまっていて、その周りにはつる植物と銀色の苔がぶら下がっている。
- スクリーン4:: 星を完璧に反射して光る湖の端から流星群を眺めるフォックス。
これらの画面に基づいて、以下のコマンドを書くことができる:
python main.py \
--subject "fox with shimmering fur and glowing eyes" \
--ref_panel_prompt "stepping onto a mossy stone path under twilight trees" \
--panel_prompts "bounding across a fallen tree over a mist-covered ravine glowing faintly with constellations" "perched atop a broken archway of ancient stone, vines and silver moss hanging down, the twilight sky glowing behind him" "watching a meteor shower from the edge of a luminous lake that reflects the stars perfectly" \
--output_dir outputs/magical_fox_story
- 結果を見る
コマンドを実行すると、プログラムは自動的に必要なAIモデルをダウンロードし、画像の生成を開始します。ハードウェアの性能によっては、この処理に時間がかかる場合があります。
それができたら、次にoutputs/magical_fox_story
生成された画面分割画像はフォルダの中にある。このうち、最初の画像は参考画像で、それ以降の画像は主人公のイメージを引き継ぎつつ、異なるシーンやアクションを表示しています。また、各画像の生成に使用された詳細なキュー・ワードのログもフォルダに保存されており、分析や再現が簡単にできます。
このプロセスにより、Story2Boardを使用して、書かれたストーリーを素早く視覚化し、首尾一貫した表現力豊かな分割画面の脚本を作成することができます。
アプリケーションシナリオ
- 映画とアニメーションのプリプロダクション
監督や脚本家は、Story2Boardを使って脚本の重要なシーンを素早くビジュアルなサブプロットに変換することができます。これにより、チームはシーンの構図、雰囲気、キャラクターの動きを前もって理解することができ、従来の手描きサブシナリオの時間とコストを大幅に節約することができます。 - 広告・マーケティング・コンテンツ制作
広告クリエイターはこのツールを使って、社内提案やクライアントコミュニケーションのために、広告原稿やマーケティングストーリーから一連のビジュアルイメージを素早く生成し、クリエイティブ効果をより直感的に表現することができます。 - 小説とゲームのコンセプトデザイン
小説の作者やゲームデザイナーは、ストーリーの説明をテキストで入力すると、登場人物のコンセプトアートや重要なシーンのイラストが生成され、読者や開発チームが物語の世界をよりイメージしやすくなる。 - 教育&プレゼンテーション
教師や講演者は、複雑な物語コンテンツや歴史的ストーリーを、鮮明なスクリプトによって視覚的に表現することができ、教育やプレゼンテーションの内容をより鮮明で理解しやすくすることができる。
品質保証
- Story2BoardはどのようなAIモデルを使用していますか?
それ自体は、高度なText-to-Imageモデルで使用できるトレーニング不要のフレームワークである。公式ドキュメントによると、現在デフォルトで以下のベースモデルを使用している。FLUX.1-dev
. - このツールを使うのに追加料金はかかりますか?
Story2Boardプロジェクト自体はオープンソースで無料である。しかし、強力なVincentianグラフィカルモデルに依存しており、ローカルで実行する場合は高性能なコンピュータハードウェア(特にグラフィックカードとメモリ)を必要とします。クラウドベースのプラットフォームで実行する場合、それに対応する計算リソースコストが発生する可能性があります。 - 生成される画像の文字の一貫性は常に100%であることが保証されていますか?
このツールは、「潜在的なパネル・アンカリング」などの技術によって文字の一貫性を大幅に改善し、通常のテキスト・トゥ・グラフィックス・ツールよりもはるかに効果的です。しかし、非常に複雑なシナリオや大きく変化するシナリオでは、それでも些細な不整合が生じることがある。明確で具体的な--subject
説明文は一貫性を確保する鍵である。 - 使うのにプログラミングの知識は必要ですか?
立ち上げて実行するには、コマンドライン操作の基本的な知識が必要です。そのプロセスには、コード・リポジトリのクローン、依存関係のインストール、Pythonスクリプトの実行が含まれる。しかし、その背後にあるコードやアルゴリズムを理解する必要はなく、ヘルプにある手順に従うだけでよい。 - スプリット・イメージの生成にはどれくらいの時間がかかりますか?
生成にかかる時間は、ハードウェアの構成(主にGPUの性能)、画像の解像度、ストーリーの複雑さによって異なります。十分に設定された民生用グラフィックカードでは、4~5枚の画像を含む分割スクリプトの生成に数分かかることがあります。