
OmniInsert: Ein Werkzeug zum Einfügen beliebiger Referenzbilder in Videos ohne Maskierung
OmniInsert 是一个由字节跳动智能创作实验室开发的研究项目。它是一个无需使用蒙版(Mask)就能将任意参考对象无缝插入到视频中的工具。传统的视频编辑流程中,如果想在视频里加入一个新对象,通常需要手动创建一个精确的“蒙版”来框出这个对...

Qwen-Image-Edit: KI-Modell zur Bearbeitung von Bildern auf der Grundlage von Textbefehlen
Qwen-Image-Edit 是由阿里巴巴通义千问团队开发的一款图像编辑AI模型。 它基于拥有200亿参数的Qwen-Image模型进行训练,核心功能是让用户通过简单的中文或英文文字指令,对图片进行修改。 这款模型同时利用了视觉语义理解和...

Qwen-Image: ein KI-Tool für die Erstellung naturgetreuer Bilder mit präziser Textwiedergabe
Qwen-Image 是一个由 Qwen 团队开发的 20B 参数多模态扩散模型(MMDiT),专注于高保真图像生成和精准文本渲染。它在复杂文本处理(尤其是中文和英文)以及图像编辑方面表现卓越。模型支持多种艺术风格,如写实、动漫和高清海报,...

SkyworkUniPic: Ein Open-Source-Modell für einheitliche Bildverarbeitung und -erzeugung
SkyworkUniPic ist ein von SkyworkAI entwickeltes multimodales Open-Source-Modell, das sich auf das Verstehen von Bildern, textgenerierten Bildern und die Bildbearbeitung konzentriert. Es integriert drei visuelle Sprachaufgaben unter Verwendung einer einzigen Architektur mit 150 Millionen Parametern. Benutzer können 102 auf Consumer-GPUs wie RTX 4090 ausführen...

FLUX.1 Krea: ein kostenloses Open-Source-Tool zur Erzeugung hochrealistischer Bilder
FLUX.1 Krea [dev] ist ein Open-Source-Bilderzeugungstool, das von Black Forest Labs in Zusammenarbeit mit Krea AI entwickelt und auf der Hugging Face-Plattform gehostet wird. Es basiert auf einer gleichgerichteten Flussumwandlung mit 12 Milliarden Parametern...

Diffuman4D: Generierung originalgetreuer 4D-Ansichten des menschlichen Körpers aus spärlichem Video
Diffuman4D ist ein Projekt, das vom ZJU3DV-Forschungsteam an der Zhejiang-Universität entwickelt wurde und sich auf die Generierung originalgetreuer 4D-Ansichten des menschlichen Körpers aus dünn besiedelten Videos konzentriert. Das Projekt kombiniert das räumlich-zeitliche Diffusionsmodell und die 4DGS (4D Gaussian Splatting)-Technik, die die Schwierigkeiten herkömmlicher Methoden bei der Erzeugung spärlicher...

Einführung von FLUX.1 Kontext und BFL Playground
Heute sind wir stolz darauf, FLUX.1 Kontext zu veröffentlichen - eine Reihe von generativen Flow-Matching-Modelle zur Unterstützung der Bilderzeugung und Bearbeitung. Im Gegensatz zu bestehenden textbasierten Bildgenerierungsmodellen unterstützt die FLUX.1 Kontext-Familie kontextabhängige...

PartCrafter: Generierung bearbeitbarer 3D-Teilemodelle aus einem einzigen Bild
PartCrafter 是一个创新的开源项目,专注于从单张RGB图片生成可编辑的3D零件模型。它采用先进的结构化3D生成技术,通过单一图像同时生成多个具有语义意义的3D零件,适用于游戏开发、产品设计等领域。项目基于预训练的3D网格扩散变换器...

HiDream-I1
HiDream-I1是一个开源的图像生成基础模型,拥有170亿参数,能够快速生成高质量图像。用户只需输入文字描述,模型即可生成包括写实、卡通、艺术等多种风格的图像。该项目由HiDream.ai团队开发,托管在GitHub上,采用MIT许可证...

Bilder 4
Google DeepMind 近期推出的 Imagen 4 模型,作为其图像生成技术的最新迭代,正迅速成为行业焦点。该模型在提升图像的丰富性、细节精确度以及生成速度方面取得了显著进展,致力于将用户的想象力以前所未有的方式变为现实。目前,用...

StarVector: ein Basismodell zur Erzeugung von SVG-Vektorgrafiken aus Bildern und Text
StarVector 是一个开源项目,它由 Juan A. Rodriguez 等开发者创建,目的是将图像和文字转化为可缩放矢量图形(SVG)。这个工具使用视觉语言模型,能够理解图像内容和文字指令,生成高质量的 SVG 代码。它的核心特点是...

AnyText
AnyText是一个革命性的多语言视觉文本生成和编辑工具,基于扩散模型开发。它能够在图像中生成自然、高质量的多语种文本,并支持灵活的文本编辑功能。该项目由研究团队开发,并在ICLR 2024会议上获得Spotlight荣誉。AnyText的...

OmniGen
OmniGen 是一个由 VectorSpaceLab(智源) 开发的“通用”图像生成模型,允许用户通过简单的文本提示或多模态输入来创建多样化且具有上下文丰富的视觉效果。它特别适合于需要识别人物和一致性角色渲染的场景。用户可以上传最多三张图...

CogView3: Wisdom Spectrums quelloffenes Kaskaden-Diffusions-Textgenerierungs-Bildmodell
综合介绍 CogView3 是由清华大学和智囊团队(智谱清言)开发的先进文本生成图像系统。它基于级联扩散模型,通过多阶段生成高分辨率图像。CogView3 的主要特点包括多阶段生成、创新架构和高效性能,适用于艺术创作、广告设计、游戏开发等多...
zurück zum Anfang