海外访问:www.kdjingpai.com
Ctrl + D 收藏本站

Qwen-Image 是一个由 Qwen 团队开发的 20B 参数多模态扩散模型(MMDiT),专注于高保真图像生成和精准文本渲染。它在复杂文本处理(尤其是中文和英文)以及图像编辑方面表现卓越。模型支持多种艺术风格,如写实、动漫和高清海报,并能处理多语言排版和布局敏感场景。通过与 ComfyUI 的原生集成,用户可轻松在本地工作流中使用 Qwen-Image,生成广告海报、杂志封面或像素艺术等内容。模型采用 Apache 2.0 许可证,开放性强,适合艺术家、设计师和开发者。

 

功能列表

  • 高保真图像生成:支持写实、动漫、像素艺术等多种风格,生成高分辨率图像。
  • 复杂文本渲染:精准呈现中英文多语言文本,保持排版一致性和视觉和谐。
  • 图像编辑能力:支持风格转换、对象增删、文本修改和细节增强。
  • 图像理解功能:包括目标检测、语义分割、深度估计和超分辨率。
  • 多分辨率支持:提供 1:1、16:9、9:16、4:3、3:4 等宽高比。
  • ComfyUI 集成:在本地工作流中运行,支持模块化操作和自定义工作流。
  • 提示词优化:通过 Qwen-Plus 增强多语言提示词,提高生成质量。
  • 多平台支持:兼容 Hugging Face、ModelScope、WaveSpeedAI 和 LiblibAI。

使用帮助

安装流程

要在 ComfyUI 中使用 Qwen-Image,需完成以下安装步骤:

  1. 下载或更新 ComfyUI
    访问 ComfyUI 官网(https://www.comfy.org/download)下载最新版本,或更新现有安装。确保系统已安装 Python 3.8 或更高版本。
  2. 安装依赖
    安装必要的 Python 库,包括 diffusers 和 PyTorch:

    pip install git+https://github.com/huggingface/diffusers
    pip install torch torchvision
    

如果使用 GPU,推荐安装支持 CUDA 的 PyTorch 以提升性能。

  1. 获取 Qwen-Image 模型
    在 ComfyUI 中选择 Qwen-Image 工作流后,系统会自动提示下载模型权重(Qwen/Qwen-Image)。也可从 Hugging Face 或 ModelScope 手动下载。
  2. 配置环境
    确保硬件支持,推荐使用 RTX 4090D(24GB 显存)等高性能 GPU。CPU 运行虽然可行,但速度较慢。VRAM 使用参考:首次运行约占 86%(24GB 显存),耗时 94 秒;第二次运行耗时约 71 秒。

在 ComfyUI 中使用 Qwen-Image

ComfyUI 提供模块化工作流,适合本地运行 Qwen-Image。以下是操作步骤:

  1. 启动 ComfyUI
    运行 ComfyUI 应用程序,进入主界面。
  2. 加载 Qwen-Image 工作流
    • 导航至 Workflow → Browse Templates → Image
    • 选择 “Qwen-Image” 工作流,或从 https://blog.comfy.org/p/qwen-image-in-comfyui-new-era-of 下载工作流文件。
    • 加载工作流后,ComfyUI 会自动配置模型和参数。
  3. 设置提示词
    输入详细的文本提示词,例如:

    A realistic vintage TV news broadcast scene from the 1980s, displayed on an old CRT television with rounded screen edges, static noise, and scanlines. The screen shows a breaking news segment with a lower-third banner that reads: "Breaking: ComfyUI just supported Qwen-Image".
    

    推荐添加正向提示词以优化效果:

    Ultra HD, 4K, cinematic composition
    
  4. 调整生成参数
    • 分辨率:选择 16:9(1664×928)或其他支持的宽高比。
    • 推理步数:推荐 50 步以平衡质量和速度。
    • CFG 尺度:设置为 4.0,确保图像与提示词高度相关。
    • 随机种子:设置固定种子(如 42)以确保结果可复现。
  5. 生成图像
    点击 Run 按钮,ComfyUI 将调用 Qwen-Image 生成图像。生成结果可保存为 PNG 文件。

提示词优化

为提升生成质量,可使用 Qwen-Plus 的提示词增强工具:

  • 代码集成
    from tools.prompt_utils import rewrite
    prompt = rewrite(prompt)  # 优化提示词
    
  • 命令行运行
    设置 DASHSCOPE_API_KEY 后,运行:

    cd src
    DASHSCOPE_API_KEY=sk-xxxxxxxxxxxxxxxxxxxx python examples/generate_w_prompt_enhance.py
    

高级功能操作

  1. 文本渲染
    Qwen-Image 在多语言文本渲染方面表现优异,适合生成海报、杂志封面等。例如,生成一张时尚杂志封面:

    A high-fashion magazine cover inspired by Vogue. Stylish model in avant-garde outfit, dramatic pose, soft studio lighting. Elegant layout with English headlines: "THE BOLD ISSUE — Confidence is the New Couture", "100 LOOKS THAT DEFINE TOMORROW".
    

    模型会确保文本字体、排版与背景自然融合。

  2. 图像编辑
    即将推出的编辑功能支持风格转换、对象增删和文本修改。例如,可将照片背景替换为像素艺术风格,或在图像中添加新对象。
  3. 图像理解
    Qwen-Image 支持目标检测、语义分割等任务。例如,可用于分析图像中的对象位置或分割区域,具体操作需等待官方文档更新。

部署与优化

若需部署多 GPU 服务以支持高并发:

  1. 配置环境变量:
    export NUM_GPUS_TO_USE=4
    export TASK_QUEUE_SIZE=100
    export TASK_TIMEOUT=300
    
  2. 启动 Gradio 服务器:
    cd src
    DASHSCOPE_API_KEY=sk-xxxxxxxxxxxxxxxxx python examples/demo.py
    

    访问 Gradio Web 界面即可通过浏览器操作。

社区支持

  • Hugging Face:支持 diffusers 工作流,LoRA 和微调功能即将推出。
  • ModelScope:支持低显存推理(4GB VRAM)、FP8 量化和 LoRA 训练。
  • WaveSpeedAI 和 LiblibAI:提供在线体验,访问其官网获取详情。
  • ComfyUI 文档:查看 https://docs.comfy.org/tutorials/image/qwen/qwen-image 获取更多教程。

应用场景

  1. 广告设计
    生成包含品牌文本的海报或广告牌,文本与图像无缝融合。
    例如,生成一张城市屋顶的广告牌,显示“ComfyUI is built with love”。
  2. 艺术创作
    艺术家可生成多样化风格的图像,如像素艺术或高时尚封面,用于插画或数字艺术。
    例如,创建 16 位像素风格的游戏界面。
  3. 教育与研究
    利用图像理解功能进行目标检测或语义分割,辅助学术研究。
    例如,分析零售场景中的商品布局。
  4. 营销内容
    生成专业营销幻灯片或视频广告素材,支持多语言文本和优雅排版。
    例如,创建牛奶品牌宣传幻灯片,包含标题和视觉元素。

QA

  1. Qwen-Image 在 ComfyUI 中如何运行?
    通过 ComfyUI 的模块化工作流加载 Qwen-Image 模型,设置提示词和参数后即可生成图像。
  2. 支持哪些文本语言?
    支持中英文等多语言,中文渲染尤其精准,适合复杂排版。
  3. 硬件要求是什么?
    推荐 RTX 4090D(24GB 显存),CPU 也可运行但速度较慢。ModelScope 支持低显存优化。
  4. 如何参与模型评测?
    访问 AI Arena 官网参与图像生成对比,或联系 weiyue.wy@alibaba-inc.com 部署模型。
0已收藏
0已赞

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文