Qwen-Image-Edit 是由阿里巴巴通义千问团队开发的一款图像编辑AI模型。 它基于拥有200亿参数的Qwen-Image模型进行训练,核心功能是让用户通过简单的中文或英文文字指令,对图片进行修改。 这款模型同时利用了视觉语义理解和视觉外观控制两种技术路径,使得编辑既能理解高层次的指令(如“把背景换成南极”),也能执行精细的局部修改(如“移除头发丝”),同时尽可能保持图片其他部分不变。 该模型的一个突出特点是其强大的文字编辑能力,可以直接修改图片中的中英文字样,并保留原有的字体风格。 目前,该模型已在Hugging Face等平台开源,并采用Apache 2.0许可证,允许商业使用。
Endereço de experiência:
https://modelscope.cn/models/Qwen/Qwen-Image-Edit
Lista de funções
- 语义编辑:支持高级的、涉及图像整体理解的修改。例如,将人物肖像转换成某种艺术风格(如吉卜力动画风)、旋转图片中的物体视角(甚至180度),或是在保留IP角色(如吉祥物)特征的同时,为其创作出不同场景和风格的图片。
- 外观编辑:专注于对图像局部进行精确修改,同时保持其余区域不变。例如,给场景添加新的物体(如招牌)、移除不需要的元素(如杂物或细小的发丝)、更换人物的服装或背景等。
- 精准文字编辑:能够直接在图片上添加、删除或修改中英文字,并尽量维持原有的字体、大小和风格。
- 连锁式编辑:支持通过多轮、渐进式的指令对图片进行连续修改,逐步达到最终想要的效果。例如,在生成的书法作品中,可以逐个框选出错误或不满意的字进行修正。
Usando a Ajuda
Qwen-Image-Edit模型可以在Hugging Face、阿里云百炼等平台上直接使用,也支持通过代码或ComfyUI等工具在本地部署。
1. 在Hugging Face Space上在线使用
这是最简单直接的体验方式,无需任何编程知识。
- Acesso à página do modelo:打开Qwen-Image-Edit在Hugging Face的主页 (
https://huggingface.co/Qwen/Qwen-Image-Edit
). - 找到推理接口:在页面中找到“Use this model”或类似的交互界面。
- 上传原始图片:界面上会有一个图片上传区域,点击“Drag image file here or click to browse from your device”来上传你想要编辑的图片。
- 输入编辑指令:在文本框(通常标记为“Prompt”或类似名称)中,用简单直接的中文或英文描述你的修改要求。例如,输入“
Change the rabbit's color to purple, with a flash light background.
”(把兔子的颜色改成紫色,背景换成闪电)。 - Gerar imagem:点击“Compute”或“生成”按钮,等待模型处理。处理完成后,编辑好的新图片就会显示在输出区域。你可以直接右键保存图片。
2. 通过Python代码(diffusers
库)使用
如果你有一些编程基础,可以使用Hugging Face的diffusers
库来调用模型,这提供了更高的灵活性。
- ambiente de instalação:首先确保你安装了必要的Python库。
pip install torch transformers diffusers accelerate
为了使用最新的模型功能,建议直接从GitHub安装
diffusers
.pip install git+https://github.com/huggingface/diffusers
- Escreva o código de chamada:下面是一个基本的使用示例。
import os from PIL import Image import torch from diffusers import QwenImageEditPipeline # 从Hugging Face Hub加载模型,模型会自动下载 pipeline = QwenImageEditPipeline.from_pretrained("Qwen/Qwen-Image-Edit") # 如果你有可用的GPU,将模型移至GPU以加速计算 pipeline.to("cuda") # 打开本地的原始图片 image = Image.open("./input.png").convert("RGB") # 设定你的编辑指令 prompt = "把这只熊手里的东西换成画板和画笔" # 配置生成参数 inputs = { "image": image, "prompt": prompt, "generator": torch.manual_seed(0), # 设置随机种子以确保结果可复现 "true_cfg_scale": 4.0, "negative_prompt": " ", # 可以留空或输入不希望出现的内容 "num_inference_steps": 50, # 推理步数,越高细节可能越好,但耗时越长 } # 执行推理 with torch.inference_mode(): output = pipeline(**inputs) # 获取并保存生成的图片 output_image = output.images[0] output_image.save("output_image_edit.png") print("图片已保存至:", os.path.abspath("output_image_edit.png"))
3. 在阿里云百炼平台使用
阿里云百炼平台提供了API调用方式,适合开发者将其集成到自己的应用中。
- Serviço aberto:首先需要在阿里云百炼平台开通模型服务,并获取API Key。
- Ambiente de configuração:将获取的API Key配置到环境变量中,并根据需要安装DashScope SDK(支持Python和Java)。
- Chamando a API:通过向指定的API端点发送HTTP POST请求来调用模型。请求体中需要包含模型名称 (
qwen-image-edit
)、输入的图片(通常是URL格式)和文本指令。
Por exemplo, usando ocurl
的请求示例如下:curl --location 'https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation' \ --header 'Content-Type: application/json' \ --header "Authorization: Bearer $DASHSCOPE_API_KEY" \ --data '{ "model": "qwen-image-edit", "input": { "messages": [ { "role": "user", "content": [ { "image": "https://dashscope.oss-cn-beijing.aliyuncs.com/images/dog_and_girl.jpeg" }, { "text": "将图中的人物改为站立姿势,弯腰握住狗的前爪" } ] } ] }, "parameters": {} }'
API调用成功后,返回的数据中会包含生成图片的URL,注意该URL有24小时的有效期,需要及时保存。
cenário do aplicativo
- comércio eletrônico
商家可以快速修改商品图片,例如更换产品背景以适应不同促销主题、修正图片中的瑕疵、或是在模特图上更换服装颜色,而无需重新拍摄。 - Criação de conteúdo de mídia social
用户可以轻松地为自己的照片添加创意元素、更换背景、移除路人,或者将照片转换成特定风格(如动漫、油画),创作出更具吸引力的内容。 - 广告与设计
设计师可以利用该模型快速生成设计初稿和海报。例如,直接在图片中修改或添加宣传标语,调整画面元素的颜色和位置,极大地提高了工作效率。 - 个人娱乐与IP创作
用户可以将自己的宠物或喜爱的角色图片进行再创作,为其设计不同的表情包、服装和场景,轻松创作个性化的IP形象。
QA
- Qwen-Image-Edit模型是免费的吗?
该模型基于Apache 2.0许可证开源,这意味着你可以免费下载和使用,并且允许用于商业目的。 如果通过阿里云等云服务平台调用,则可能会根据平台的定价策略收取一定的费用。 - 这个模型可以处理什么样的编辑指令?
它可以处理两大类指令:一是“外观编辑”,指令非常具体,如“把这朵花变成蓝色”或“移除图片右上角的路灯”;二是“语义编辑”,指令更侧重于创意和风格,如“把这张照片变成梵高风格”或“让这个角色看起来更开心”。 同时,它最突出的能力之一是精准编辑图片中的文字。 - 使用这个模型需要专业的编程知识吗?
不需要。对于普通用户,可以直接在Hugging Face社区提供的Space或通义千问官网的“图像编辑”功能中使用图形化界面进行操作,只需上传图片和输入文字即可。 对于开发者,则可以利用官方提供的Python代码或API接口将其集成到自己的程序中。 - 它和其他AI图像编辑工具有什么不同?
Qwen-Image-Edit的主要优势在于其强大的中英文文字渲染和编辑能力,可以直接、精确地修改图片中的文字内容,这是许多其他模型难以做到的。 此外,它通过独特的双路径技术,很好地平衡了保持原图细节(外观)和实现创意修改(语义)这两方面的需求。