
xAI Grok Imagine API: sofort einsatzbereiter multimodaler Audio- und Videogenerierungsdienst für Produktionsumgebungen
Im Januar 2026 stellte xAI offiziell die Grok Imagine API vor, einen produktionsreifen multimodalen Videogenerierungsdienst für Entwickler und Unternehmen. Basierend auf dem von xAI intern entwickelten “Aurora”-Modell besteht die Kernfunktion des Dienstes in der Fähigkeit, Text auf Basis von...

OmniInsert: Ein Werkzeug zum Einfügen beliebiger Referenzbilder in Videos ohne Maskierung
OmniInsert ist ein Forschungsprojekt, das vom ByteDance Intelligent Creation Lab entwickelt wurde. Es handelt sich um ein Werkzeug, mit dem jedes beliebige Referenzobjekt nahtlos in ein Video eingefügt werden kann, ohne eine Maske zu verwenden. Wenn Sie bei der herkömmlichen Videobearbeitung ein neues Objekt in das Video einfügen möchten, müssen Sie in der Regel manuell eine präzise “Maske” erstellen, um den Rahmen...

Qwen-Image-Edit: KI-Modell zur Bearbeitung von Bildern auf der Grundlage von Textbefehlen
Qwen-Image-Edit ist ein vom Alibaba Tongyi Qianqian-Team entwickeltes KI-Modell zur Bildbearbeitung. Es wurde auf der Grundlage des Qwen-Image-Modells mit 20 Milliarden Parametern trainiert und seine Kernfunktion besteht darin, den Nutzern die Änderung von Bildern durch einfache chinesische oder englische Textbefehle zu ermöglichen. Dieses Modell nutzt sowohl das visuelle semantische Verständnis als auch...

Qwen-Image: ein KI-Tool für die Erstellung naturgetreuer Bilder mit präziser Textwiedergabe
Qwen-Image 是一个由 Qwen 团队开发的 20B 参数多模态扩散模型(MMDiT),专注于高保真图像生成和精准文本渲染。它在复杂文本处理(尤其是中文和英文)以及图像编辑方面表现卓越。模型支持多种艺术风格,如写实、动漫和高清海报,...

SkyworkUniPic: Ein Open-Source-Modell für einheitliche Bildverarbeitung und -erzeugung
SkyworkUniPic ist ein von SkyworkAI entwickeltes multimodales Open-Source-Modell, das sich auf das Verstehen von Bildern, textgenerierten Bildern und die Bildbearbeitung konzentriert. Es integriert drei visuelle Sprachaufgaben unter Verwendung einer einzigen Architektur mit 150 Millionen Parametern. Benutzer können 102 auf Consumer-GPUs wie RTX 4090 ausführen...

FLUX.1 Krea: ein kostenloses Open-Source-Tool zur Erzeugung hochrealistischer Bilder
FLUX.1 Krea [dev] ist ein Open-Source-Bilderzeugungstool, das von Black Forest Labs in Zusammenarbeit mit Krea AI entwickelt und auf der Hugging Face-Plattform gehostet wird. Es basiert auf einer gleichgerichteten Flussumwandlung mit 12 Milliarden Parametern...

Diffuman4D: Generierung originalgetreuer 4D-Ansichten des menschlichen Körpers aus spärlichem Video
Diffuman4D ist ein Projekt, das vom ZJU3DV-Forschungsteam an der Zhejiang-Universität entwickelt wurde und sich auf die Generierung originalgetreuer 4D-Ansichten des menschlichen Körpers aus dünn besiedelten Videos konzentriert. Das Projekt kombiniert das räumlich-zeitliche Diffusionsmodell und die 4DGS (4D Gaussian Splatting)-Technik, die die Schwierigkeiten herkömmlicher Methoden bei der Erzeugung spärlicher...

Einführung von FLUX.1 Kontext und BFL Playground
Heute sind wir stolz darauf, FLUX.1 Kontext zu veröffentlichen - eine Reihe von generativen Flow-Matching-Modelle zur Unterstützung der Bilderzeugung und Bearbeitung. Im Gegensatz zu bestehenden textbasierten Bildgenerierungsmodellen unterstützt die FLUX.1 Kontext-Familie kontextabhängige...

PartCrafter: Generierung bearbeitbarer 3D-Teilemodelle aus einem einzigen Bild
PartCrafter 是一个创新的开源项目,专注于从单张RGB图片生成可编辑的3D零件模型。它采用先进的结构化3D生成技术,通过单一图像同时生成多个具有语义意义的3D零件,适用于游戏开发、产品设计等领域。项目基于预训练的3D网格扩散变换器...

HiDream-I1
HiDream-I1是一个开源的图像生成基础模型,拥有170亿参数,能够快速生成高质量图像。用户只需输入文字描述,模型即可生成包括写实、卡通、艺术等多种风格的图像。该项目由HiDream.ai团队开发,托管在GitHub上,采用MIT许可证...

Imagen 4
Google DeepMind 近期推出的 Imagen 4 模型,作为其图像生成技术的最新迭代,正迅速成为行业焦点。该模型在提升图像的丰富性、细节精确度以及生成速度方面取得了显著进展,致力于将用户的想象力以前所未有的方式变为现实。目前,用...

StarVector: ein Basismodell zur Erzeugung von SVG-Vektorgrafiken aus Bildern und Text
StarVector ist ein Open-Source-Projekt, das von Entwicklern wie Juan A. Rodriguez ins Leben gerufen wurde, um Bilder und Text in skalierbare Vektorgrafiken (SVG) zu konvertieren. Dieses Tool verwendet ein visuelles Sprachmodell, das Bildinhalte und Textanweisungen versteht, um hochwertigen SVG-Code zu erzeugen. Seine Hauptmerkmale sind...

AnyText
AnyText是一个革命性的多语言视觉文本生成和编辑工具,基于扩散模型开发。它能够在图像中生成自然、高质量的多语种文本,并支持灵活的文本编辑功能。该项目由研究团队开发,并在ICLR 2024会议上获得Spotlight荣誉。AnyText的...

OmniGen
OmniGen ist ein von VectorSpaceLab entwickeltes “universelles” Bilderzeugungsmodell, das es den Benutzern ermöglicht, mit einfachen Texteingaben oder multimodalen Eingaben vielfältige und kontextreiche visuelle Darstellungen zu erstellen. Es eignet sich besonders für Szenen, die eine Zeichenidentifikation und ein konsistentes Zeichenrendering erfordern. Benutzer können bis zu drei Bilder hochladen...

CogView3: Wisdom Spectrums quelloffenes Kaskaden-Diffusions-Textgenerierungs-Bildmodell
综合介绍 CogView3 是由清华大学和智囊团队(智谱清言)开发的先进文本生成图像系统。它基于级联扩散模型,通过多阶段生成高分辨率图像。CogView3 的主要特点包括多阶段生成、创新架构和高效性能,适用于艺术创作、广告设计、游戏开发等多...
zurück zum Anfang