专注于前沿生成式AI模型开发的 Black Forest Labs 与应用型AI实验室 Krea AI 近日宣布合作,推出了一款名为 FLUX.1 Krea [dev] 的开源权重文生图模型。该模型的核心目标是解决当前许多AI生成图像中普遍存在的过度饱和、纹理不自然的“AI感”问题,通过其独特的审美方法,生成更具真实感的图像。
“有主见”的图像生成方式
FLUX.1 Krea [dev] 被称为一个“有主见”的(Opinionated)文生图模型,这一定位使其在众多图像生成工具中独树一帜。所谓“有主见”,意味着该模型在训练阶段就被赋予了特定的美学倾向,旨在生成更符合人类审美的、多样化且视觉上更吸引人的图像,而不是仅仅作为一个中立的工具被动地响应指令。这种方法有效地避免了生成结果中常见的过度平滑、高光溢出和塑料感强的纹理,为用户带来富有惊喜的创作体验。
在与 Stable Diffusion
等模型的对比测试中,FLUX.1
在处理复杂场景、渲染动态效果以及保持画面细节方面表现出明显优势,尤其是在刻画超现实景观或未来城市等需要丰富想象力的主题上。
根据官方发布的人类偏好评估结果,尽管 FLUX.1 Krea [dev] 具有独特的风格倾向,其表现在开源模型中名列前茅,甚至可以和闭源的 FLUX.1.1 [pro] 等商业解决方案相媲美。
架构革新:告别U-Net,拥抱Transformer
FLUX.1 Krea [dev] 与 FLUX.1 [dev] 的生态系统在架构上保持兼容。与 Stable Diffusion
系列广泛采用的 U-Net
架构不同,FLUX.1
系列采用了一种混合架构,其核心是一个拥有120亿参数、完全基于 Transformer
的设计。
为了更精准地理解用户输入的提示词,该架构采用了双文本编码器:一个 CLIP
编码器 (clip_l.safetensors
) 和一个更大规模的 T5-XXL
编码器 (t5xxl_fp16.safetensors
)。这种设计使其能够同时捕捉文本的精细语义和宏观语境,从而在处理复杂、多对象的长文本提示时,展现出远超单一编码器模型的遵循能力。此外,该模型在渲染精确的人体解剖结构(尤其是手部等传统难点)方面也进行了优化,准确度显著高于同类模型。
在训练方法上,FLUX.1
采用了流匹配(Flow Matching)技术,这是一种比传统扩散(Diffusion)过程更高效的训练方法,有助于提升图像生成的连贯性和风格多样性。
目前,FLUX.1 Krea [dev] 的模型权重已在 HuggingFace 代码库中提供,并可通过 FAL.ai
、 Replicate
、 Runware
、 DataCrunch
和 TogetherAI
等多个平台提供的API进行集成。值得注意的是,由于其庞大的参数量,运行该模型对硬件有一定要求,推荐使用至少拥有 24GB VRAM 的显卡以获得最佳体验,低VRAM用户则可选择FP8量化版本或等待社区进一步优化。
核心特性
- 顶尖的图像生成:提供与行业领先模型相媲美的图像质量和提示词遵循能力。
- 独特的审美风格:有效规避普遍的“AI感”,生成更具真实感和艺术性的图像。
- 出色的细节渲染:在处理复杂构图和精细人体结构方面表现突出。
- 灵活的定制化:可作为基础模型,用于下游应用的微调。
- 先进的技术架构:采用双文本编码器和基于
Transformer
的设计,确保强大的性能。
合作模式的价值
此次 Black Forest Labs 和 Krea AI 的合作,展示了基础模型研究与垂直应用开发之间协同的巨大价值。Black Forest Labs 提供强大而灵活的基础模型,而 Krea AI 则将其应用于实际场景并进行针对性优化,这种模式使得双方能够共同推动开源AI图像生成技术的发展。通过这种紧密的合作,基础模型能够在开发阶段就获得宝贵的应用反馈,从而加速迭代,创造出此前难以实现的成果。