以下是使用 Janus-4o 生成图像的详细流程:
1. 加载模型
from transformers import AutoModelForCausalLM, VLChatProcessor
model_path = "FreedomIntelligence/Janus-4o-7B"
vl_chat_processor = VLChatProcessor.from_pretrained(model_path)
vl_gpt = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True).cuda().eval()
2. 定义生成函数
使用 text_to_image_generate
函数(示例代码见 GitHub):
- 输入参数:文本提示(如“一张星空下的沙漠”)、输出路径、处理器和模型对象。
- 可选参数:温度值(控制生成多样性)、并行大小、配置权重等。
3. 执行生成
函数会将生成的图像保存到指定路径,过程中会调用 Hugging Face 的管道处理文本和图像数据。生成完成后,可通过图像查看工具预览结果。
注意事项:确保 GPU 可用,并参考 GitHub 文档调整参数以获得最佳效果。
本答案来源于文章《ShareGPT-4o-Image:开源的多模态图像生成数据集》