图像生成模型

 提交网站

xAI Grok Imagine API：生产环境开箱即用的多模态音视频生成服务
xAI 于 2026 年 1 月正式推出了 Grok Imagine API，这是一项面向开发者和企业的生产级多模态视频生成服务。该服务基于 xAI 内部研发的 “Aurora” 模型构建，核心能力在于能够根据文本提...
1.4 K直达0已赞
0已收藏
OmniInsert：无需蒙版即可将任意参考图像插入视频的工具
OmniInsert 是一个由字节跳动智能创作实验室开发的研究项目。它是一个无需使用蒙版（Mask）就能将任意参考对象无缝插入到视频中的工具。传统的视频编辑流程中，如果想在视频里加入一个新对象，通常需要手动创建一个精确的“蒙版”来框出这个对...
1.8 K直达0已赞
0已收藏
Qwen-Image-Edit：根据文本指令编辑图片的AI模型
Qwen-Image-Edit 是由阿里巴巴通义千问团队开发的一款图像编辑AI模型。它基于拥有200亿参数的Qwen-Image模型进行训练，核心功能是让用户通过简单的中文或英文文字指令，对图片进行修改。这款模型同时利用了视觉语义理解和...
3.5 K直达0已赞
0已收藏
Qwen-Image：生成高保真图像与精准文本渲染的AI工具
Qwen-Image 是一个由 Qwen 团队开发的 20B 参数多模态扩散模型（MMDiT），专注于高保真图像生成和精准文本渲染。它在复杂文本处理（尤其是中文和英文）以及图像编辑方面表现卓越。模型支持多种艺术风格，如写实、动漫和高清海报，...
3.5 K直达0已赞
0已收藏
SkyworkUniPic：统一处理图像理解与生成的开源模型
SkyworkUniPic 是由 SkyworkAI 开发的一个开源多模态模型，专注于图像理解、文本生成图像和图像编辑。它使用单一的 1.5 亿参数架构，整合了三种视觉语言任务。用户可以在消费级 GPU（如 RTX 4090）上运行 102...
2.0 K直达0已赞
0已收藏
FLUX.1 Krea：免费生成高真实感图像的开源工具
FLUX.1 Krea [dev] 是由 Black Forest Labs 和 Krea AI 合作开发的一款开源图像生成工具，托管在 Hugging Face 平台。它基于 120 亿参数的 rectified flow transfo...
2.4 K直达0已赞
0已收藏
Diffuman4D: 从稀疏视频生成高保真4D人体视图
Diffuman4D 是一个由浙江大学 ZJU3DV 研究团队开发的项目，专注于从稀疏视图视频生成高保真的4D人体视图。项目结合了时空扩散模型和 4DGS（4D Gaussian Splatting）技术，解决了传统方法在稀疏输入下难以生成...
2.3 K直达1已赞
0已收藏
推出 FLUX.1 Kontext 与 BFL Playground
今天，我们隆重发布 FLUX.1 Kontext —— 一套生成式流匹配模型（generative flow matching models），支持图像的生成与编辑。与现有文本生成图像模型不同，FLUX.1 Kontext 系列支持上下文感...
2.0 K0已赞
0已收藏
PartCrafter：从单张图片生成可编辑3D零件模型
PartCrafter 是一个创新的开源项目，专注于从单张RGB图片生成可编辑的3D零件模型。它采用先进的结构化3D生成技术，通过单一图像同时生成多个具有语义意义的3D零件，适用于游戏开发、产品设计等领域。项目基于预训练的3D网格扩散变换器...
2.8 K直达0已赞
0已收藏
HiDream-I1
HiDream-I1是一个开源的图像生成基础模型，拥有170亿参数，能够快速生成高质量图像。用户只需输入文字描述，模型即可生成包括写实、卡通、艺术等多种风格的图像。该项目由HiDream.ai团队开发，托管在GitHub上，采用MIT许可证...
2.9 K直达0已赞
0已收藏
Imagen 4
Google DeepMind 近期推出的 Imagen 4 模型，作为其图像生成技术的最新迭代，正迅速成为行业焦点。该模型在提升图像的丰富性、细节精确度以及生成速度方面取得了显著进展，致力于将用户的想象力以前所未有的方式变为现实。目前，用...
2.8 K0已赞
0已收藏
StarVector：从图像和文字生成SVG矢量图的基础模型
StarVector 是一个开源项目，它由 Juan A. Rodriguez 等开发者创建，目的是将图像和文字转化为可缩放矢量图形（SVG）。这个工具使用视觉语言模型，能够理解图像内容和文字指令，生成高质量的 SVG 代码。它的核心特点是...
4.6 K直达0已赞
0已收藏
AnyText
AnyText是一个革命性的多语言视觉文本生成和编辑工具，基于扩散模型开发。它能够在图像中生成自然、高质量的多语种文本，并支持灵活的文本编辑功能。该项目由研究团队开发，并在ICLR 2024会议上获得Spotlight荣誉。AnyText的...
3.8 K直达0已赞
0已收藏
OmniGen
OmniGen 是一个由 VectorSpaceLab（智源）开发的“通用”图像生成模型，允许用户通过简单的文本提示或多模态输入来创建多样化且具有上下文丰富的视觉效果。它特别适合于需要识别人物和一致性角色渲染的场景。用户可以上传最多三张图...
4.3 K直达0已赞
0已收藏
CogView3：智谱轻言开源的级联扩散文本生成图像模型
综合介绍 CogView3 是由清华大学和智囊团队（智谱清言）开发的先进文本生成图像系统。它基于级联扩散模型，通过多阶段生成高分辨率图像。CogView3 的主要特点包括多阶段生成、创新架构和高效性能，适用于艺术创作、广告设计、游戏开发等多...
3.1 K直达0已赞
0已收藏

图像生成模型

快速查询站内AI工具