フラックス.1 クレア [dev]は、Black Forest LabsがKrea AIと共同で開発したオープンソースの画像生成ツールで、Hugging Faceプラットフォームでホストされている。これは、120億パラメータの整流フローに基づいています。 変流器 テキスト記述から非常にリアルな画像を生成するモデル。このモデルは、画像の美しさを向上させ、一般的な「AI生成センス」の問題を解決し、アーティスト、開発者、研究者のための自然で詳細な画像を生成することに重点を置いています。このモデルは、非商用利用のためのオープンウェイトであり、ローカル展開やカスタム開発のためにComfy UIとdiffusersライブラリの統合を提供しています。
機能一覧
- テキストから画像へ:テキスト説明を入力すると、高解像度のリアルな画像が生成されます。
- 美的最適化:「AI感覚」を避け、自然で詳細な写真スタイルの画像を生成することに重点を置く。
- オープンソースウェイト:研究および非商用利用のためのカスタマイズ開発をサポートするオープンモデルウェイトを提供する。
- 効率的な推論:高速な推論と低リソース使用のために、ガイド付き蒸留技術によって最適化されている。
- マルチプラットフォーム対応: Comfy UIおよびディフューザーライブラリと互換性があり、ローカルまたはクラウドに展開できます。
- セキュリティ・フィルタリング:不適切なコンテンツを生成するリスクを低減するフィルタリング機構を内蔵。
ヘルプの使用
インストールと使用
FLUX.1 Krea [dev]は、ローカルでの展開やオンラインでの体験など、様々な使用方法に対応しています。以下、詳しいインストール方法と操作方法を説明します。
1.ローカル展開(diffusersライブラリを使用)
FLUX.1 Krea [dev]は、Pythonのdiffusersライブラリを介して実行することができます。以下はインストール手順です:
- 依存関係のインストールGPUアクセラレーションを推奨し、CUDA対応のPyTorchが必要です。
pip install torch diffusers
- 積載モデル以下のコードを使って、FLUX.1 Krea [dev]モデルをロードし、画像を生成します:
import torch from diffusers import FluxPipeline # 初始化管道 pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-Krea-dev", torch_dtype=torch.bfloat16) pipe.enable_model_cpu_offload() # 若 GPU 显存不足,启用 CPU 卸载 # 输入文本提示 prompt = "一只猫举着写有‘你好世界’的标牌" image = pipe( prompt, height=1024, width=1024, guidance_scale=4.5, ).images[0] # 保存生成图像 image.save("flux-krea-dev.png")
パラメータの説明
height
歌で応えるwidth
出力画像の解像度を設定します。guidance_scale
: テキストプロンプトの順守度を0から10までコントロールし、推奨は4.5。torch_dtype=torch.bfloat16
グラフィックスのメモリ使用量を減らすために、半精度浮動小数点数を使用します。
- 動作環境少なくとも12GBのビデオメモリを搭載したGPUを使用することを推奨しますが、それでも足りない場合は、GPUのビデオメモリを有効にしてください。
enable_model_cpu_offload()
しかし、推理のスピードは落ちる。
2.快適なUIを使う
Comfy UIは、FLUXをローカルで実行するためのノードベースのワークフローツールです。
- モデルウェイトのダウンロード: Hugging Faceリポジトリからダウンロード https://huggingface.co/black-forest-labs/FLUX.1-Krea-dev
*.safetensors
ドキュメンテーション - 快適なUIの設定::
- Comfy UIをインストールする(公式GitHubリポジトリhttps://github.com/comfyanonymous/ComfyUI)。
- ダウンロードした
*.safetensors
ファイルをComfy UIのモデルディレクトリ(通常はmodels/checkpoints
). - Comfy UIインターフェースで、FLUX.1 Krea [dev]ノードをロードし、テキストプロンプトとパラメータを設定します。
- 画像の生成ノード接続でキュー・ワード、解像度などのパラメータを設定し、"Run "をクリックして画像を生成します。
3.オンライン経験
現地での展開は必要なく、ハギング・フェイス・スペースやパートナー・プラットフォーム(Replicate、FALなど)を通じて体験することができる:
- https://huggingface.co/spaces/black-forest-labs/FLUX.1-Krea-Dev。
- テキストプロンプトを入力し、解像度またはスタイルを調整し、[生成]をクリックします。
- 生成された画像をダウンロードする。
主な機能
テキストから画像へ
FLUX.1 Krea [dev]の中核機能は、テキストから画像を生成することである。操作のポイントは以下の通り:
- キューの準備例えば、「青いジャンパーを着た女の子が秋の森を散歩している。美しい写真」といった曖昧な表現は避けましょう。
- 調整パラメーター::
- 解像度:ほとんどのシナリオで1024×1024を推奨。
- Guidance_scale:キューに対する画像のフィット感をコントロールする。4.5がデフォルト値で、フィット感を高めるには大きくするが、大きすぎると画像が歪む可能性がある。
- 結果を出す生成された画像はPNG形式で保存でき、編集や共有に便利です。
美的最適化
FLUX.1 Krea [dev]は、次のような特徴を持つ写真風の画像を生成することに特化している:
- ナチュラル・ディテール露出オーバーのハイライトや歪んだ色を避け、臨場感のある画像を生成します。
- スタイル・コントロールCinematic」や「Vintage Photography」などのキューを使ってスタイルを指定することができます。例えば、"City streets at night, neon lights, cinematic style "というキューを使うと、映画のような雰囲気の映像になります。
- "AI感覚 "を避けるモデルは、不自然なテクスチャや照明など、一般的なAI画像のステレオタイプな痕跡を減らすために美的に訓練されています。
セキュリティ・コントロール
不適切なコンテンツの生成を防ぐため、このモデルにはフィルタリングの仕組みが組み込まれている:
- プレトレーニングフィルターNSFW および違法コンテンツはトレーニングデータから削除されています。
- トレーニング後の最適化微調整により、禁止コンテンツの発生リスクを低減する。
- 使用上の推奨事項ユーザーは、暴力的またはポルノ的な記述など、不適切なコンテンツを誘発する可能性のあるプロンプトワードの入力を避ける必要があります。
ほら
- 非営利目的生成された画像は、FluxDev非商用ライセンスに基づき、個人、研究、非営利目的での使用に制限されています。営利目的での使用には、Black Forest Labsに連絡し、ライセンスを取得する必要があります。[](https://huggingface.co/black-forest-labs/FLUX.1-Krea-dev)
- ハードウェア要件NVIDIA A100またはRTX 3090を推奨します。
- キュー・ワード・テクニック英語のプロンプトはより効果的であり、文体的なキーワードと組み合わせた詳細な説明を使用することをお勧めします。
アプリケーションシナリオ
- アート
アーティストは、テキストの説明を入力することで、インスピレーションとなるスケッチや最終的なアートワークを生成することができます。例えば、「未来都市、スカイホバリングビル、サイバーパンクスタイル」と入力すると、コンセプトデザインが生成され、プリコンポジションの時間を節約できます。 - 学術研究
研究者は、モデルの微調整や、生成されたモデルの性能限界を探るための分析に、オープンウェイトを使用することができる。例えば、異なる手がかり語の画質への影響をテストする。 - 教育とトレーニング
教師は、FLUX.1 Krea [dev]を使用して、AI画像生成の原理を示し、学生にディープラーニングの応用を理解させることができます。生徒はオンラインプラットフォームを通じて、画像生成を体験し、キューワードデザインについて学ぶことができます。 - コンテンツ制作
コンテンツ制作者は、ブログのグラフィックやソーシャルメディアの素材を生成することができます。例えば、「トロピカルビーチ、サンセット、ココナッツツリー」と入力すると、高品質の背景画像が生成される。
品質保証
- FLUX.1 Krea [dev]は無料ですか?
はい、モデルウエイトはフリーでオープンです。Hugging Faceでホストされており、非商用利用が可能です。商用利用にはライセンスが必要です。 - 生成された画像の品質を向上させるには?
夜の森、湖の月明かり、リアルな写真撮影」など、詳細なキューを使ってスタイルやディテールを指定する。調整guidance_scale
を4.5-6の間に設定し、品質とフィット感のバランスを図っている。 - キュー・ワードはどの言語に対応していますか?
主に英語のプロンプトに対応しており、中国語のプロンプトは若干効果が落ちる可能性がある。英語に翻訳して入力することをお勧めします。 - 画像生成にかかる時間は?
GPU(例:RTX 3090)を使用して1024×1024の画像を生成するのに約10~20秒かかり、CPUオフロードモードでは1~2分かかる場合があります。