Qwen-Image-EditはAlibaba Tongyi Qianqianチームによって開発された画像編集AIモデルである。 200億のパラメータを持つQwen-Imageモデルに基づいて学習され、その中核機能は、ユーザーが簡単な中国語または英語のテキストコマンドで画像を修正できるようにすることである。 このモデルは、視覚的意味理解と視覚的外観制御の両方を利用し、エディタが高レベルのコマンド(例えば「背景を南極に変更する」)を理解するだけでなく、きめ細かな局所的修正(例えば「髪の毛の束を取り除く」)を実行できるようにします。を実行することができる。 このモデルの優れた特徴のひとつは、強力なテキスト編集機能で、元のフォントスタイルを維持したまま、画像内の中国語や英語の文字を直接修正することができます。 このモデルは現在、Hugging Faceやその他のプラットフォームでオープンソース化されており、Apache 2.0ライセンスの下でライセンスされているため、商用利用が可能です。
住所
https://modelscope.cn/models/Qwen/Qwen-Image-Edit
機能一覧
- セマンティックエディタ: 画像の全体的な理解を伴う高度な修正をサポートします。例えば、肖像画を特定のアーティスティックなスタイル(例:ジブリのアニメスタイル)に変換したり、写真内のオブジェクトの視点を180度回転させたり、IPキャラクター(例:マスコット)の特徴を維持したまま、異なるシーンやスタイルを作成したりすることができます。
- アピアランス・エディター他の部分はそのままに、画像の局所的な部分を正確に修正することに重点を置いています。例えば、シーンに新しいオブジェクトを追加する(看板など)、不要な要素を削除する(散らかったものや小さな髪の毛など)、キャラクターの服装や背景を変更する、など。
- 精密なテキスト編集画像に直接中国語や英語の文字を追加、削除、修正することができ、元のフォント、サイズ、スタイルを維持するように努めます。
- チェーンエディター複数回のラウンドとプログレッシブ・コマンドによって画像を連続的に修正し、最終的な効果を得ることができます。例えば、生成された書道作品では、間違った文字や不満足な文字を1つずつ枠で囲んで修正することができます。
ヘルプの使用
Qwen-Image-Editモデルは、Hugging FaceやAliCloud Hundred Refinementsなどのプラットフォームで直接使用できるほか、コードやComfyUIなどのツールによるローカル展開もサポートしている。
1.ハギング・フェイス・スペースでオンライン
プログラミングの知識は必要なく、最も簡単でわかりやすい方法だ。
- モデルページへのアクセスQwen-Image-EditのホームページをHugging Faceで開く。
https://huggingface.co/Qwen/Qwen-Image-Edit
). - 推論インターフェースを見つけるこのモデルを使用する」または類似のインターフェイスをページ上で見つけてください。
- オリジナル画像のアップロード画像のアップロードエリアが表示されますので、"画像ファイルをここにドラッグするか、"をクリックしてください。 ブラウズ をクリックし、編集したい画像をアップロードします。
- 編集コマンドを入力するテキストボックス(通常 "Prompt "などと表示されている)に、変更要求を中国語または英語で簡潔に入力してください。例えば、"
Change the rabbit's color to purple, with a flash light background.
「ウサギの色を紫に、背景を稲妻に)。 - 画像の生成Compute" または "Generate" ボタンをクリックし、モデルが処理されるのを待ちます。処理後、新しい編集画像が出力エリアに表示されます。画像を右クリックして直接保存することもできます。
2.Pythonコードによるdiffusers
ライブラリ)を使用している。
プログラミングの基礎があれば、ハギング・フェイスのdiffusers
ライブラリを使ってモデルを呼び出すことができる。
- インストール環境まず、必要なPythonライブラリがインストールされていることを確認してください。
pip install torch transformers diffusers accelerate
最新のモデリング機能を使用するには、GitHubから直接インストールすることをお勧めします!
diffusers
.pip install git+https://github.com/huggingface/diffusers
- 呼び出しコードを書く以下は基本的な使用例である。
import os from PIL import Image import torch from diffusers import QwenImageEditPipeline # 从Hugging Face Hub加载模型,模型会自动下载 pipeline = QwenImageEditPipeline.from_pretrained("Qwen/Qwen-Image-Edit") # 如果你有可用的GPU,将模型移至GPU以加速计算 pipeline.to("cuda") # 打开本地的原始图片 image = Image.open("./input.png").convert("RGB") # 设定你的编辑指令 prompt = "把这只熊手里的东西换成画板和画笔" # 配置生成参数 inputs = { "image": image, "prompt": prompt, "generator": torch.manual_seed(0), # 设置随机种子以确保结果可复现 "true_cfg_scale": 4.0, "negative_prompt": " ", # 可以留空或输入不希望出现的内容 "num_inference_steps": 50, # 推理步数,越高细节可能越好,但耗时越长 } # 执行推理 with torch.inference_mode(): output = pipeline(**inputs) # 获取并保存生成的图片 output_image = output.images[0] output_image.save("output_image_edit.png") print("图片已保存至:", os.path.abspath("output_image_edit.png"))
3.AliCloud百錬プラットフォームで使用される
AliCloud Hundred Refinement Platformは、開発者がアプリケーションに統合するのに適したAPIコールを提供します。
- オープンサービスまず、AliCloud Hundred Refinement Platformでモデルサービスを開き、API Keyを取得します。
- 設定環境取得した API キーを環境変数に設定し、必要に応じて DashScope SDK(Python、Java サポート)をインストールします。
- APIの呼び出し指定されたAPIエンドポイントにHTTP POSTリクエストを送信することで、モデルを呼び出します。リクエストボディにはモデル名 (
qwen-image-edit
)、入力画像(通常はURL形式)、そしてテキストコマンド。
例えばcurl
リクエストの例を以下に示す:curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation' \ --header 'Content-Type: application/json' \ --header "Authorization: Bearer $DASHSCOPE_API_KEY" \ --data '{ "model": "qwen-image-edit", "input": { "messages": [ { "role": "user", "content": [ { "image": "https://dashscope.oss-cn-beijing.aliyuncs.com/images/dog_and_girl.jpeg" }, { "text": "将图中的人物改为站立姿势,弯腰握住狗的前爪" } ] } ] }, "parameters": {} }'
APIコールが成功すると、返されるデータには生成された画像のURLが含まれる。URLの有効期限は24時間で、期限内に保存する必要があることに注意しよう。
アプリケーションシナリオ
- 電子商取引
例えば、異なる販促テーマに合わせて商品の背景を変更したり、画像の欠点を修正したり、モデル画像の服の色を変更したりすることができます。 - ソーシャルメディア・コンテンツ制作
ユーザーは、写真にクリエイティブな要素を加えたり、背景を変えたり、通行人を削除したり、写真を特定のスタイル(アニメや油絵など)に変換したりして、より魅力的なコンテンツを簡単に作成できる。 - 広告・デザイン
デザイナーはこのモデルを使用して、デザインやポスターの初稿を素早く作成することができます。例えば、宣伝用のスローガンを修正・追加したり、画面要素の色や位置を画像内で直接調整したりすることで、作業効率が大幅に向上します。 - パーソナル・エンターテインメントとIP創造
ユーザーは、ペットやお気に入りのキャラクターの画像を再現したり、さまざまな顔文字やコスチューム、シーンをデザインしたり、パーソナライズされたIP画像を簡単に作成したりできる。
品質保証
- Qwen-Image-Editモデルは無料ですか?
このモデルはApache 2.0ライセンスのオープンソースであり、無料でダウンロードして使用することができ、商用目的での使用も許可されています。 AliCloudのようなクラウドサービスプラットフォームを通して利用する場合は、プラットフォームの価格戦略に基づいて料金が請求される場合があります。 - このモデルはどのような編集コマンドを扱えますか?
1つは、「この花を青くする」とか「写真の右上の街灯を消す」といった非常に具体的な "外観編集 "で、もう1つは、「この写真をゴッホ風にする」とか「このキャラクターをもっと幸せそうにする」といった、より創造性やスタイルに重点を置いた "意味編集 "です。"意味編集 "は、「この写真をゴッホ風にする」とか「このキャラクターをもっと幸せそうにする」といった、創造性やスタイルにより重点を置いたもの。 一方、最も顕著な能力の1つは、写真内のテキストを正確に編集することです。 - このモデルを使うには、プログラミングの専門知識が必要ですか?
必要ありません。通常のユーザーであれば、Hugging Faceコミュニティが提供するSpaceのグラフィカル・インターフェイスを直接使うか、トンイチアンサイトの「画像編集」機能で、画像をアップロードしてテキストを入力するだけです。 開発者向けには、公式のPythonコードまたはAPIインターフェイスを使用して、独自のアプリケーションに統合することができます。 - 他のAI画像編集ツールとの違いは?
Qwen-Image-Editの最大の特長は、その強力な中国語と英語のテキストレンダリングと編集機能です。他の多くのモデルでは困難な、画像内のテキストコンテンツの直接かつ正確な修正が可能です。 また、Qwen-Image-Editは、独自のデュアルパス技術により、オリジナル画像の詳細(外観)を維持する必要性と、独創的な修正(セマンティクス)を実現する必要性とのバランスをうまく取っています。