HiDream-I1は、170億ものパラメータを持つオープンソースの画像生成ベースモデルで、高品質な画像を素早く生成することができます。ユーザーはテキストによる説明を入力するだけで、リアル、カートゥーン、アーティスティックなど様々なスタイルの画像を生成することができる。HiDream.aiチームによって開発されたこのプロジェクトは、MITライセンスの下、GitHubでホストされており、個人、科学、商用利用がサポートされています。HiDream-I1は、HPS v2.1、GenEval、DPGなどのいくつかのベンチマークで優れた結果を出しており、生成される画像の品質とキューワードに従う能力において、業界をリードするレベルに達しています。ユーザーは、Hugging Faceプラットフォームを通じてモデルを体験したり、モデルの重みをダウンロードしてローカルで実行することができる。このプロジェクトはまた、インタラクティブな画像生成を容易にするGradioデモ・インターフェースも提供しています。
機能一覧
- テキストから画像へ: ユーザーが入力したテキスト説明に基づいて高品質の画像を生成します。
- マルチスタイルのサポート:リアル、カートゥーン、アート、その他のスタイルの画像を生成します。
- 高速生成:推論ステップを最適化することで、数秒で画像を生成します。
- フルバージョン(HiDream-I1-Full)、開発バージョン(HiDream-I1-Dev)、高速バージョン(HiDream-I1-Fast)があります。
- 画像編集対応:HiDream-E1-Fullモデルをベースに、テキストコマンドによる画像編集に対応。
- オープンソースと商用:MITライセンスにより、生成された画像を自由に使用できる。
- Gradio Interactive Interface:画像生成を直接体験できるオンラインデモを提供。
ヘルプの使用
設置プロセス
HiDream-I1を使用するには、ローカル環境にモデルの実行環境を設定する必要があります。以下に詳しいインストール手順を示します:
- 環境を整える
依存関係の衝突を避けるため、Python 3.12を使用し、新しい仮想環境を作成することを推奨します。以下のコマンドを実行してください:conda create -n hdi1 python=3.12 conda activate hdi1
または仮想環境を使用する:
python3 -m venv venv
source venv/bin/activate # Linux
.\venv\Scripts\activate # Windows
- 依存関係のインストール
必要なライブラリ、特にHugging Face Diffusersライブラリをインストールしてください。互換性を確保するため、ソースからインストールすることをお勧めします:pip install git+https://github.com/huggingface/diffusers.git
さらに、パフォーマンスを最適化するためにFlash Attentionがインストールされ、CUDA 12.4が推奨されている:
pip install flash-attn
- ダウンロードモデル
ハギング・フェイスからHiDream-I1モデルのウェイトが発売。3つのバリエーションに対応:HiDream-ai/HiDream-I1-Full
高品質ジェネレーションに適したコンプリートモデル。HiDream-ai/HiDream-I1-Dev
推論ステップが少ない開発版の方が速い。HiDream-ai/HiDream-I1-Fast
迅速な生成に適したクイックバージョン。
推論スクリプトを実行すると、自動的にmeta-llama/Meta-Llama-3.1-8B-Instruct
モデル。ネットワークが不安定な場合は、事前にHugging Faceからダウンロードし、キャッシュディレクトリに置いてください。
- 走り推理
以下のPythonコードを使って画像生成を実行する:import torch from transformers import PreTrainedTokenizerFast, LlamaForCausalLM from diffusers import HiDreamImagePipeline tokenizer_4 = PreTrainedTokenizerFast.from_pretrained("meta-llama/Meta-Llama-3.1-8B-Instruct") text_encoder_4 = LlamaForCausalLM.from_pretrained( "meta-llama/Meta-Llama-3.1-8B-Instruct", output_hidden_states=True, output_attentions=True, torch_dtype=torch.bfloat16 ) pipe = HiDreamImagePipeline.from_pretrained( "HiDream-ai/HiDream-I1-Full", tokenizer_4=tokenizer_4, text_encoder_4=text_encoder_4, torch_dtype=torch.bfloat16 ) pipe = pipe.to('cuda') image = pipe( 'A cat holding a sign that says "HiDream.ai"', height=1024, width=1024, guidance_scale=5.0, num_inference_steps=50, generator=torch.Generator("cuda").manual_seed(0) ).images[0] image.save("output.png")
パラメータの説明
height
歌で応えるwidth
1024×1024を推奨します。guidance_scale
キュー・ワードの固着度をコントロールする、推奨度5.0。num_inference_steps
推論ステップ数はFull版が50、Dev版が28、Fast版が16。
- グラディオのデモを実行する
このプロジェクトは、インタラクティブな画像生成を容易にするGradioインターフェースを提供します。次のコマンドを実行して起動してください:python gradio_demo.py
起動したら、ローカルのウェブインターフェイスにアクセスし、テキスト説明を入力して画像を生成する。
注目の機能操作
- テキストから画像へGradioの画面に「"HiDream.ai "と書かれた看板を掲げる猫」のような説明テキストを入力します。モデルバリアントを選択し、解像度を調整し、Generateをクリックして画像を取得する。
- 画像編集HiDream-E1-Fullモデルを使ったハギング・フェイス空間(
https://huggingface.co/spaces/HiDream-ai/HiDream-E1-Full
) 画像をアップロードし、「背景を森に変更」のような変更コマンドを入力します。モデルはコマンドに従って画像を調整し、キャラクターの一貫性を保ちます。 - モデルの選択Fullバージョンは高品質の生成に、Devバージョンは開発とテストに、Fastバージョンはラピッドプロトタイピングに適しています。
ほら
- ハードウェア要件:Ampereアーキテクチャ以上をサポートするNVIDIA GPU(A100, RTX 3090など)が必要。
hykilpikonna/HiDream-I1-nf4
)は16GBのビデオメモリで動作する。 - ライセンス:同意が必要
meta-llama/Meta-Llama-3.1-8B-Instruct
コミュニティ・ライセンスを取得し、Hugging Faceにログインする:huggingface-cli login
アプリケーションシナリオ
- コンテンツ制作
クリエイターはHiDream-I1を使って、イラストや広告グラフィック、コンセプトアートを作成することができます。例えば、「未来都市の夜景」と入力すると、小説の表紙やゲームのデザインに使えるSF風の画像が生成されます。 - 教育・研究
研究者はこのモデルを使って、画像生成実験を行ったり、異なる手がかり語の効果をテストしたり、MITライセンスに基づいて新しいアプリケーションを開発したりすることができる。 - 商業用
MITライセンスにより、生成された画像を追加ライセンスなしで自由に使用できます。
品質保証
- HiDream-I1に必要なハードウェアは何ですか?
Ampere アーキテクチャ以上をサポートするNVIDIA GPU(RTX 3090、A100など)が必要。4ビット量子化バージョンは16GBのビデオメモリで動作。 - モデルバリエーションの選び方は?
Fullバージョンは高品質の生成に適しており、Devバージョンは迅速な開発に適している。 - 生成された画像は市販されていますか?
はい。MITライセンスは、生成された画像を個人的、科学的、商業的な目的で使用することを許可しています。 - モデルのダウンロード失敗を解決するには?
ハギング・フェイスからの先行ダウンロードmeta-llama/Meta-Llama-3.1-8B-Instruct
モデルをキャッシュ・ディレクトリに置く。