Overseas access: www.kdjingpai.com
Ctrl + D Favorites

HiDream-I1是一个开源的图像生成基础模型,拥有170亿参数,能够快速生成高质量图像。用户只需输入文字描述,模型即可生成包括写实、卡通、艺术等多种风格的图像。该项目由HiDream.ai团队开发,托管在GitHub上,采用MIT许可证,支持个人、科研和商业用途。HiDream-I1在多项基准测试中表现优异,例如HPS v2.1、GenEval和DPG,生成图像质量和提示词遵循能力均达到行业领先水平。用户可以通过Hugging Face平台体验模型,或下载模型权重在本地运行。项目还提供Gradio演示界面,方便交互式生成图像。

HiDream-I1-1

 

Function List

  • 文本转图像:根据用户输入的文字描述生成高质量图像。
  • 多风格支持:生成写实、卡通、艺术等多种风格图像。
  • 快速生成:通过优化推理步骤,最快可在数秒内生成图像。
  • 模型变体:提供完整版(HiDream-I1-Full)、开发版(HiDream-I1-Dev)和快速版(HiDream-I1-Fast)。
  • 图像编辑支持:基于HiDream-E1-Full模型,支持通过文字指令修改图像。
  • 开源与商用:MIT许可证允许自由使用生成的图像。
  • Gradio交互界面:提供在线演示,方便用户直接体验图像生成。

 

Using Help

Installation process

要使用HiDream-I1,需在本地环境配置模型运行环境。以下是详细安装步骤:

  1. Preparing the environment
    建议使用Python 3.12,并创建一个新的虚拟环境以避免依赖冲突。运行以下命令:

    conda create -n hdi1 python=3.12
    conda activate hdi1

或使用虚拟环境:

python3 -m venv venv
source venv/bin/activate  # Linux
.\venv\Scripts\activate   # Windows
  1. Installation of dependencies
    安装必要的库,特别是Hugging Face的Diffusers库。推荐从源代码安装以确保兼容性:

    pip install git+https://github.com/huggingface/diffusers.git
    

    另外,安装Flash Attention以优化性能,推荐使用CUDA 12.4:

    pip install flash-attn
    
  2. Download model
    HiDream-I1模型权重可从Hugging Face获取。支持三种变体:

    • HiDream-ai/HiDream-I1-Full:完整模型,适合高质量生成。
    • HiDream-ai/HiDream-I1-Dev:开发版,推理步骤较少,速度更快。
    • HiDream-ai/HiDream-I1-Fast:快速版,适合快速生成。
      运行推理脚本会自动下载meta-llama/Meta-Llama-3.1-8B-Instruct模型。若网络不稳定,可提前从Hugging Face下载并放置到缓存目录。
  3. running inference
    使用以下Python代码运行图像生成:

    import torch
    from transformers import PreTrainedTokenizerFast, LlamaForCausalLM
    from diffusers import HiDreamImagePipeline
    tokenizer_4 = PreTrainedTokenizerFast.from_pretrained("meta-llama/Meta-Llama-3.1-8B-Instruct")
    text_encoder_4 = LlamaForCausalLM.from_pretrained(
    "meta-llama/Meta-Llama-3.1-8B-Instruct",
    output_hidden_states=True,
    output_attentions=True,
    torch_dtype=torch.bfloat16
    )
    pipe = HiDreamImagePipeline.from_pretrained(
    "HiDream-ai/HiDream-I1-Full",
    tokenizer_4=tokenizer_4,
    text_encoder_4=text_encoder_4,
    torch_dtype=torch.bfloat16
    )
    pipe = pipe.to('cuda')
    image = pipe(
    'A cat holding a sign that says "HiDream.ai"',
    height=1024,
    width=1024,
    guidance_scale=5.0,
    num_inference_steps=50,
    generator=torch.Generator("cuda").manual_seed(0)
    ).images[0]
    image.save("output.png")
    

    Parameter Description:

    • heightcap (a poem)width:设置生成图像的分辨率,推荐1024×1024。
    • guidance_scale:控制提示词遵循程度,建议5.0。
    • num_inference_steps:推理步骤数,Full版为50,Dev版为28,Fast版为16。
  4. 运行Gradio演示
    项目提供Gradio界面,方便交互式生成图像。运行以下命令启动:

    python gradio_demo.py
    

    启动后,访问本地Web界面,输入文字描述即可生成图像。

Featured Function Operation

  • Text to Image:在Gradio界面输入描述性文字,如“一只猫举着写有‘HiDream.ai’的牌子”。选择模型变体并调整分辨率,点击生成即可获得图像。
  • image editing:使用HiDream-E1-Full模型,在Hugging Face空间(https://huggingface.co/spaces/HiDream-ai/HiDream-E1-Full)上传图像并输入修改指令,如“将背景改为森林”。模型会根据指令调整图像,保持人物一致性。
  • Model Selection:根据需求选择变体。Full版适合高质量生成,Dev版适合开发测试,Fast版适合快速原型设计。

caveat

  • 硬件要求:需要NVIDIA GPU(如A100、RTX 3090),支持Ampere架构以上。4位量化版本(hykilpikonna/HiDream-I1-nf4)可在16GB显存下运行。
  • 许可证:需同意meta-llama/Meta-Llama-3.1-8B-Instruct的社区许可证,并在Hugging Face上登录:
    huggingface-cli login
    

 

application scenario

  1. content creation
    创作者可使用HiDream-I1生成插画、广告图或概念艺术。例如,输入“未来城市夜景”生成科幻风格图像,用于小说封面或游戏设计。
  2. Education and Research
    研究人员可利用模型进行图像生成实验,测试不同提示词的效果,或基于MIT许可证开发新应用。
  3. commercial use
    企业可生成产品宣传图或营销素材。MIT许可证允许自由使用生成的图像,无需额外授权。

 

QA

  1. HiDream-I1需要什么硬件?
    需要NVIDIA GPU(如RTX 3090、A100),支持Ampere架构以上。4位量化版本可在16GB显存下运行。
  2. 如何选择模型变体?
    Full版适合高质量生成,Dev版适合快速开发,Fast版适合快速生成但质量稍低。
  3. 生成的图像可以商用吗?
    可以。MIT许可证允许将生成的图像用于个人、科研和商业用途。
  4. How do I fix a model download failure?
    提前从Hugging Face下载meta-llama/Meta-Llama-3.1-8B-Instruct模型,放置到缓存目录。
0Bookmarked
0kudos

Recommended

Can't find AI tools? Try here!

Just type in the keyword Accessibility Bing SearchYou can quickly find all the AI tools on this site.

inbox

Contact Us

Top

en_USEnglish