HiDream-I1

2025-05-23

92 0

https://github.com/HiDream-ai/HiDream-I1

HiDream-I1是一个开源的图像生成基础模型，拥有170亿参数，能够快速生成高质量图像。用户只需输入文字描述，模型即可生成包括写实、卡通、艺术等多种风格的图像。该项目由HiDream.ai团队开发，托管在GitHub上，采用MIT许可证，支持个人、科研和商业用途。HiDream-I1在多项基准测试中表现优异，例如HPS v2.1、GenEval和DPG，生成图像质量和提示词遵循能力均达到行业领先水平。用户可以通过Hugging Face平台体验模型，或下载模型权重在本地运行。项目还提供Gradio演示界面，方便交互式生成图像。

HiDream-I1-1

功能列表

文本转图像：根据用户输入的文字描述生成高质量图像。
多风格支持：生成写实、卡通、艺术等多种风格图像。
快速生成：通过优化推理步骤，最快可在数秒内生成图像。
模型变体：提供完整版（HiDream-I1-Full）、开发版（HiDream-I1-Dev）和快速版（HiDream-I1-Fast）。
图像编辑支持：基于HiDream-E1-Full模型，支持通过文字指令修改图像。
开源与商用：MIT许可证允许自由使用生成的图像。
Gradio交互界面：提供在线演示，方便用户直接体验图像生成。

使用帮助

安装流程

要使用HiDream-I1，需在本地环境配置模型运行环境。以下是详细安装步骤：

准备环境
建议使用Python 3.12，并创建一个新的虚拟环境以避免依赖冲突。运行以下命令：
```
conda create -n hdi1 python=3.12
conda activate hdi1
```

或使用虚拟环境：

python3 -m venv venv
source venv/bin/activate  # Linux
.\venv\Scripts\activate   # Windows

安装依赖
安装必要的库，特别是Hugging Face的Diffusers库。推荐从源代码安装以确保兼容性：
```
pip install git+https://github.com/huggingface/diffusers.git
```
另外，安装Flash Attention以优化性能，推荐使用CUDA 12.4：
```
pip install flash-attn
```
下载模型
HiDream-I1模型权重可从Hugging Face获取。支持三种变体：
- HiDream-ai/HiDream-I1-Full：完整模型，适合高质量生成。
- HiDream-ai/HiDream-I1-Dev：开发版，推理步骤较少，速度更快。
- HiDream-ai/HiDream-I1-Fast：快速版，适合快速生成。
  运行推理脚本会自动下载meta-llama/Meta-Llama-3.1-8B-Instruct模型。若网络不稳定，可提前从Hugging Face下载并放置到缓存目录。

运行推理
使用以下Python代码运行图像生成：

import torch
from transformers import PreTrainedTokenizerFast, LlamaForCausalLM
from diffusers import HiDreamImagePipeline
tokenizer_4 = PreTrainedTokenizerFast.from_pretrained("meta-llama/Meta-Llama-3.1-8B-Instruct")
text_encoder_4 = LlamaForCausalLM.from_pretrained(
"meta-llama/Meta-Llama-3.1-8B-Instruct",
output_hidden_states=True,
output_attentions=True,
torch_dtype=torch.bfloat16
)
pipe = HiDreamImagePipeline.from_pretrained(
"HiDream-ai/HiDream-I1-Full",
tokenizer_4=tokenizer_4,
text_encoder_4=text_encoder_4,
torch_dtype=torch.bfloat16
)
pipe = pipe.to('cuda')
image = pipe(
'A cat holding a sign that says "HiDream.ai"',
height=1024,
width=1024,
guidance_scale=5.0,
num_inference_steps=50,
generator=torch.Generator("cuda").manual_seed(0)
).images[0]
image.save("output.png")

参数说明：

height和width：设置生成图像的分辨率，推荐1024×1024。
guidance_scale：控制提示词遵循程度，建议5.0。
num_inference_steps：推理步骤数，Full版为50，Dev版为28，Fast版为16。

运行Gradio演示
项目提供Gradio界面，方便交互式生成图像。运行以下命令启动：
```
python gradio_demo.py
```
启动后，访问本地Web界面，输入文字描述即可生成图像。

特色功能操作

文本转图像：在Gradio界面输入描述性文字，如“一只猫举着写有‘HiDream.ai’的牌子”。选择模型变体并调整分辨率，点击生成即可获得图像。
图像编辑：使用HiDream-E1-Full模型，在Hugging Face空间（https://huggingface.co/spaces/HiDream-ai/HiDream-E1-Full）上传图像并输入修改指令，如“将背景改为森林”。模型会根据指令调整图像，保持人物一致性。
模型选择：根据需求选择变体。Full版适合高质量生成，Dev版适合开发测试，Fast版适合快速原型设计。

注意事项

硬件要求：需要NVIDIA GPU（如A100、RTX 3090），支持Ampere架构以上。4位量化版本（hykilpikonna/HiDream-I1-nf4）可在16GB显存下运行。
许可证：需同意meta-llama/Meta-Llama-3.1-8B-Instruct的社区许可证，并在Hugging Face上登录：
```
huggingface-cli login
```

应用场景

内容创作
创作者可使用HiDream-I1生成插画、广告图或概念艺术。例如，输入“未来城市夜景”生成科幻风格图像，用于小说封面或游戏设计。
教育与研究
研究人员可利用模型进行图像生成实验，测试不同提示词的效果，或基于MIT许可证开发新应用。
商业用途
企业可生成产品宣传图或营销素材。MIT许可证允许自由使用生成的图像，无需额外授权。

QA

HiDream-I1需要什么硬件？
需要NVIDIA GPU（如RTX 3090、A100），支持Ampere架构以上。4位量化版本可在16GB显存下运行。
如何选择模型变体？
Full版适合高质量生成，Dev版适合快速开发，Fast版适合快速生成但质量稍低。
生成的图像可以商用吗？
可以。MIT许可证允许将生成的图像用于个人、科研和商业用途。
如何解决模型下载失败？
提前从Hugging Face下载meta-llama/Meta-Llama-3.1-8B-Instruct模型，放置到缓存目录。

AI生产力工具 » HiDream-I1 发布于 2025-05-23，如发现网址过期，或无法访问，请联系我们。

0已收藏

0已赞