Qwen-Image 是一个由 Qwen 团队开发的 20B 参数多模态扩散模型(MMDiT),专注于高保真图像生成和精准文本渲染。它在复杂文本处理(尤其是中文和英文)以及图像编辑方面表现卓越。模型支持多种艺术风格,如写实、动漫和高清海报,并能处理多语言排版和布局敏感场景。通过与 ComfyUI 的原生集成,用户可轻松在本地工作流中使用 Qwen-Image,生成广告海报、杂志封面或像素艺术等内容。模型采用 Apache 2.0 许可证,开放性强,适合艺术家、设计师和开发者。
功能列表
- 高保真图像生成:支持写实、动漫、像素艺术等多种风格,生成高分辨率图像。
- 复杂文本渲染:精准呈现中英文多语言文本,保持排版一致性和视觉和谐。
- 图像编辑能力:支持风格转换、对象增删、文本修改和细节增强。
- 图像理解功能:包括目标检测、语义分割、深度估计和超分辨率。
- 多分辨率支持:提供 1:1、16:9、9:16、4:3、3:4 等宽高比。
- ComfyUI 集成:在本地工作流中运行,支持模块化操作和自定义工作流。
- 提示词优化:通过 Qwen-Plus 增强多语言提示词,提高生成质量。
- 多平台支持:兼容 Hugging Face、ModelScope、WaveSpeedAI 和 LiblibAI。
使用帮助
安装流程
要在 ComfyUI 中使用 Qwen-Image,需完成以下安装步骤:
- 下载或更新 ComfyUI:
访问 ComfyUI 官网(https://www.comfy.org/download)下载最新版本,或更新现有安装。确保系统已安装 Python 3.8 或更高版本。 - 安装依赖:
安装必要的 Python 库,包括diffusers
和 PyTorch:pip install git+https://github.com/huggingface/diffusers pip install torch torchvision
如果使用 GPU,推荐安装支持 CUDA 的 PyTorch 以提升性能。
- 获取 Qwen-Image 模型:
在 ComfyUI 中选择 Qwen-Image 工作流后,系统会自动提示下载模型权重(Qwen/Qwen-Image
)。也可从 Hugging Face 或 ModelScope 手动下载。 - 配置环境:
确保硬件支持,推荐使用 RTX 4090D(24GB 显存)等高性能 GPU。CPU 运行虽然可行,但速度较慢。VRAM 使用参考:首次运行约占 86%(24GB 显存),耗时 94 秒;第二次运行耗时约 71 秒。
在 ComfyUI 中使用 Qwen-Image
ComfyUI 提供模块化工作流,适合本地运行 Qwen-Image。以下是操作步骤:
- 启动 ComfyUI:
运行 ComfyUI 应用程序,进入主界面。 - 加载 Qwen-Image 工作流:
- 设置提示词:
输入详细的文本提示词,例如:A realistic vintage TV news broadcast scene from the 1980s, displayed on an old CRT television with rounded screen edges, static noise, and scanlines. The screen shows a breaking news segment with a lower-third banner that reads: "Breaking: ComfyUI just supported Qwen-Image".
推荐添加正向提示词以优化效果:
Ultra HD, 4K, cinematic composition
- 调整生成参数:
- 分辨率:选择 16:9(1664×928)或其他支持的宽高比。
- 推理步数:推荐 50 步以平衡质量和速度。
- CFG 尺度:设置为 4.0,确保图像与提示词高度相关。
- 随机种子:设置固定种子(如 42)以确保结果可复现。
- 生成图像:
点击Run
按钮,ComfyUI 将调用 Qwen-Image 生成图像。生成结果可保存为 PNG 文件。
提示词优化
为提升生成质量,可使用 Qwen-Plus 的提示词增强工具:
- 代码集成:
from tools.prompt_utils import rewrite prompt = rewrite(prompt) # 优化提示词
- 命令行运行:
设置DASHSCOPE_API_KEY
后,运行:cd src DASHSCOPE_API_KEY=sk-xxxxxxxxxxxxxxxxxxxx python examples/generate_w_prompt_enhance.py
高级功能操作
- 文本渲染:
Qwen-Image 在多语言文本渲染方面表现优异,适合生成海报、杂志封面等。例如,生成一张时尚杂志封面:A high-fashion magazine cover inspired by Vogue. Stylish model in avant-garde outfit, dramatic pose, soft studio lighting. Elegant layout with English headlines: "THE BOLD ISSUE — Confidence is the New Couture", "100 LOOKS THAT DEFINE TOMORROW".
模型会确保文本字体、排版与背景自然融合。
- 图像编辑:
即将推出的编辑功能支持风格转换、对象增删和文本修改。例如,可将照片背景替换为像素艺术风格,或在图像中添加新对象。 - 图像理解:
Qwen-Image 支持目标检测、语义分割等任务。例如,可用于分析图像中的对象位置或分割区域,具体操作需等待官方文档更新。
部署与优化
若需部署多 GPU 服务以支持高并发:
- 配置环境变量:
export NUM_GPUS_TO_USE=4 export TASK_QUEUE_SIZE=100 export TASK_TIMEOUT=300
- 启动 Gradio 服务器:
cd src DASHSCOPE_API_KEY=sk-xxxxxxxxxxxxxxxxx python examples/demo.py
访问 Gradio Web 界面即可通过浏览器操作。
社区支持
- Hugging Face:支持
diffusers
工作流,LoRA 和微调功能即将推出。 - ModelScope:支持低显存推理(4GB VRAM)、FP8 量化和 LoRA 训练。
- WaveSpeedAI 和 LiblibAI:提供在线体验,访问其官网获取详情。
- ComfyUI 文档:查看 https://docs.comfy.org/tutorials/image/qwen/qwen-image 获取更多教程。
应用场景
- 广告设计
生成包含品牌文本的海报或广告牌,文本与图像无缝融合。
例如,生成一张城市屋顶的广告牌,显示“ComfyUI is built with love”。 - 艺术创作
艺术家可生成多样化风格的图像,如像素艺术或高时尚封面,用于插画或数字艺术。
例如,创建 16 位像素风格的游戏界面。 - 教育与研究
利用图像理解功能进行目标检测或语义分割,辅助学术研究。
例如,分析零售场景中的商品布局。 - 营销内容
生成专业营销幻灯片或视频广告素材,支持多语言文本和优雅排版。
例如,创建牛奶品牌宣传幻灯片,包含标题和视觉元素。
QA
- Qwen-Image 在 ComfyUI 中如何运行?
通过 ComfyUI 的模块化工作流加载 Qwen-Image 模型,设置提示词和参数后即可生成图像。 - 支持哪些文本语言?
支持中英文等多语言,中文渲染尤其精准,适合复杂排版。 - 硬件要求是什么?
推荐 RTX 4090D(24GB 显存),CPU 也可运行但速度较慢。ModelScope 支持低显存优化。 - 如何参与模型评测?
访问 AI Arena 官网参与图像生成对比,或联系 weiyue.wy@alibaba-inc.com 部署模型。