Qwen-Imageは、Qwenチームによって開発された20Bパラメトリックマルチモーダル拡散モデル(MMDiT)で、忠実度の高い画像生成と正確なテキストレンダリングに重点を置いています。複雑なテキスト処理(特に中国語と英語)と画像編集に優れています。このモデルは、リアル、アニメ、HDポスターなど幅広いアートスタイルをサポートし、多言語タイポグラフィやレイアウトに敏感なシナリオにも対応できます。このモデルは、以下と組み合わせてカスタマイズすることができます。 ComfyUI Qwen-Imageのネイティブ統合により、ユーザーはQwen-Imageをローカルワークフローで簡単に使用し、広告ポスター、雑誌表紙、ピクセルアートなどのコンテンツを生成することができます。このモデルは Apache 2.0 ライセンスの下で利用可能で、アーティスト、デザイナー、開発者に開放されています。
機能一覧
- 忠実度の高い画像生成:リアル、アニメ、ピクセルアートなどのスタイルをサポートし、高解像度の画像を生成します。
- 複雑なテキストのレンダリング:英語と中国語の多言語テキストを正確にレンダリングし、タイポグラフィの一貫性と視覚的な調和を維持します。
- 画像編集機能:スタイル変換、オブジェクトの追加と削除、テキストの修正、細部の強調をサポート。
- 画像理解機能:ターゲット検出、セマンティックセグメンテーション、深度推定、超解像を含む。
- マルチレゾリューション対応:アスペクト比1:1、16:9、9:16、4:3、3:4。
- ComfyUIの統合:ネイティブワークフローで実行し、モジュラー操作とカスタムワークフローをサポートします。
- プロンプトの最適化:Qwen-Plusによる多言語プロンプトの強化により、生成の質を向上。
- マルチプラットフォーム対応:Hugging Face、ModelScope、WaveSpeedAI、LiblibAIと互換性があります。
ヘルプの使用
設置プロセス
ComfyUIでQwen-Imageを使用するには、以下のインストール手順を完了してください:
- ComfyUIのダウンロードまたはアップデート::
ComfyUIのウェブサイト(https://www.comfy.org/download)から最新版をダウンロードするか、既存のインストールを更新してください。Python 3.8以降がシステムにインストールされていることを確認してください。 - 依存関係のインストール::
以下の必要なPythonライブラリをインストールする。diffusers
とPyTorchがある:pip install git+https://github.com/huggingface/diffusers pip install torch torchvision
GPUを使用している場合は、パフォーマンスを向上させるためにCUDAをサポートするPyTorchをインストールすることを推奨します。
- クウェン画像モデルの入手::
ComfyUIでQwen-Imageワークフローを選択すると、自動的にモデルウェイト(Qwen/Qwen-Image
).Hugging FaceまたはModelScopeから手動でダウンロードすることもできます。 - 設定環境::
ハードウェアのサポートを確実にするため、RTX 4090D(RAM24GB)などの高性能GPUを使用することをお勧めします。VRAM使用量の参考:1回目の実行には約86%(RAM24GB)が必要で94秒、2回目の実行には約71秒かかります。
ComfyUIでQwen-Imageを使う
ComfyUIは、Qwen-Imageをローカルで実行するのに適したモジュラーワークフローを提供します:
- ComfyUIの起動::
ComfyUI アプリケーションを実行して、メイン画面に入ります。 - Qwen-Imageワークフローの読み込み::
- キューの設定::
詳細なテキストプロンプトの単語を入力します:A realistic vintage TV news broadcast scene from the 1980s, displayed on an old CRT television with rounded screen edges, static noise, and scanlines. The screen shows a breaking news segment with a lower-third banner that reads: "Breaking: ComfyUI just supported Qwen-Image".
結果を最適化するために、ポジティブな合図を加えることをお勧めする:
Ultra HD, 4K, cinematic composition
- 発電パラメーターの調整::
- 解像16:9(1664×928)またはその他の対応アスペクト比を選択してください。
- 推論ステップ品質とスピードのバランスを考慮し、50ステップを推奨する。
- CFGスケール4.0に設定すると、キュー・ワードと画像の関連性が高くなります。
- ランダムシード再現性のある結果を得るために、固定シード(42など)を設定する。
- 画像の生成::
打込むRun
ボタンを押すと、ComfyUIはQwen-Imageを呼び出して画像を生成します。結果はPNGファイルとして保存できます。
キュー・ワードの最適化
生成の質を向上させるために、Qwen-Plusのプロンプト・ワード・エンハンスメント・ツールを使用することができる:
- コード統合::
from tools.prompt_utils import rewrite prompt = rewrite(prompt) # 优化提示词
- コマンドライン操作::
セットアップDASHSCOPE_API_KEY
走り終えてcd src DASHSCOPE_API_KEY=sk-xxxxxxxxxxxxxxxxxxxx python examples/generate_w_prompt_enhance.py
高度な機能操作
- テキストレンダリング::
Qwen-Imageは多言語テキストレンダリングに優れており、ポスターや雑誌の表紙などの生成に適しています。例えば、ファッション雑誌の表紙を作成する場合:A high-fashion magazine cover inspired by Vogue. Stylish model in avant-garde outfit, dramatic pose, soft studio lighting. Elegant layout with English headlines: "THE BOLD ISSUE — Confidence is the New Couture", "100 LOOKS THAT DEFINE TOMORROW".
このモデルは、テキストフォントやタイポグラフィが背景と自然に調和するようにする。
- 画像編集::
これからの編集機能は、スタイルの変換、オブジェクトの追加と削除、テキストの修正をサポートします。例えば、写真の背景をピクセルアート風に置き換えたり、画像に新しいオブジェクトを追加したりできます。 - 図形理解::
Qwen-Image は、ターゲット検出やセマンティックセグメンテーションなどのタスクをサポートします。例えば、画像内のオブジェクトの位置を分析したり、領域をセグメンテーションするために使用することができます。
展開と最適化
高い同時実行性をサポートするためにマルチGPUサービスを展開する必要がある場合:
- 環境変数を設定する:
export NUM_GPUS_TO_USE=4 export TASK_QUEUE_SIZE=100 export TASK_TIMEOUT=300
- Gradioサーバーを起動する:
cd src DASHSCOPE_API_KEY=sk-xxxxxxxxxxxxxxxxx python examples/demo.py
Gradioのウェブ・インターフェイスへのアクセスは、ブラウザから可能です。
地域支援
- ハグする顔サポート
diffusers
ワークフロー、LoRA、微調整機能は近日公開予定。 - モデルスコープ低メモリ推論(4GB VRAM)、FP8定量化、LoRAトレーニングに対応。
- WaveSpeedAIとLiblibAI詳しくはウェブサイトをご覧ください。
- ComfyUIドキュメントその他のチュートリアルはhttps://docs.comfy.org/tutorials/image/qwen/qwen-image。
アプリケーションシナリオ
- 広告デザイン
テキストと画像をシームレスにブレンドし、ブランドテキストを含むポスターやビルボードを作成します。
例えば、街の屋上に「ComfyUIは愛で作られています」という看板を作る。 - アート
イラストレーションやデジタルアートのためのピクセルアートやハイファッションの表紙など、様々なスタイルの画像を生成することができる。
例えば、16ビットのピクセルスタイルのゲームインターフェイスを作る。 - 教育・研究
学術研究を支援するための画像理解関数を使用したターゲット検出またはセマンティックセグメンテーション。
例えば、小売のシナリオにおける商品のレイアウトを分析する。 - マーケティング・コンテンツ
多言語テキストとエレガントなタイポグラフィをサポートして、プロフェッショナルなマーケティングスライドショーやビデオ広告素材を作成できます。
例えば、見出しや視覚的要素を使ったミルク・ブランディングのスライドショーを作成する。
品質保証
- Qwen-ImageはComfyUIでどのように機能するのですか?
Qwen-Imageモデルは、ComfyUIのモジュラーワークフローを通してロードされ、プロンプトとパラメータが設定され、画像が生成されます。 - サポートされているテキスト言語は?
中国語、英語、その他の言語をサポートし、中国語のレンダリングは特に正確で、複雑な組版に適しています。 - ハードウェアの要件は?
RTX 4090D (24GB RAM)を推奨。CPUでも動作は可能ですが、速度が遅くなります。ModelScopeは低RAM最適化をサポートしています。 - どうすればモデル審査に参加できますか?
画像生成の比較に参加するには、AI Arenaの公式ウェブサイトをご覧になるか、weiyue.wy@alibaba-inc.com までお問い合わせください。