
xAI Grok Imagine API: sofort einsatzbereiter multimodaler Audio- und Videogenerierungsdienst für Produktionsumgebungen
Im Januar 2026 stellte xAI offiziell die Grok Imagine API vor, einen produktionsreifen multimodalen Videogenerierungsdienst für Entwickler und Unternehmen. Basierend auf dem von xAI intern entwickelten “Aurora”-Modell besteht die Kernfunktion des Dienstes in der Fähigkeit, Text auf Basis von...

OmniInsert: Ein Werkzeug zum Einfügen beliebiger Referenzbilder in Videos ohne Maskierung
OmniInsert ist ein Forschungsprojekt, das vom ByteDance Intelligent Creation Lab entwickelt wurde. Es handelt sich um ein Werkzeug, mit dem jedes beliebige Referenzobjekt nahtlos in ein Video eingefügt werden kann, ohne eine Maske zu verwenden. Wenn Sie bei der herkömmlichen Videobearbeitung ein neues Objekt in das Video einfügen möchten, müssen Sie in der Regel manuell eine präzise “Maske” erstellen, um den Rahmen...

Qwen-Image-Edit: KI-Modell zur Bearbeitung von Bildern auf der Grundlage von Textbefehlen
Qwen-Image-Edit ist ein vom Alibaba Tongyi Qianqian-Team entwickeltes KI-Modell zur Bildbearbeitung. Es wurde auf der Grundlage des Qwen-Image-Modells mit 20 Milliarden Parametern trainiert und seine Kernfunktion besteht darin, den Nutzern die Änderung von Bildern durch einfache chinesische oder englische Textbefehle zu ermöglichen. Dieses Modell nutzt sowohl das visuelle semantische Verständnis als auch...

Qwen-Image: ein KI-Tool für die Erstellung naturgetreuer Bilder mit präziser Textwiedergabe
Qwen-Image ist ein 20B parametrisches multimodales Diffusionsmodell (MMDiT), das vom Qwen-Team entwickelt wurde und sich auf die originalgetreue Bilderzeugung und die genaue Textwiedergabe konzentriert. Es zeichnet sich durch komplexe Textverarbeitung (insbesondere Chinesisch und Englisch) und Bildbearbeitung aus. Das Modell unterstützt eine breite Palette von Kunststilen, wie z. B. realistische, Anime- und hochauflösende Poster,...

SkyworkUniPic: Ein Open-Source-Modell für einheitliche Bildverarbeitung und -erzeugung
SkyworkUniPic ist ein von SkyworkAI entwickeltes multimodales Open-Source-Modell, das sich auf das Verstehen von Bildern, textgenerierten Bildern und die Bildbearbeitung konzentriert. Es integriert drei visuelle Sprachaufgaben unter Verwendung einer einzigen Architektur mit 150 Millionen Parametern. Benutzer können 102 auf Consumer-GPUs wie RTX 4090 ausführen...

FLUX.1 Krea: ein kostenloses Open-Source-Tool zur Erzeugung hochrealistischer Bilder
FLUX.1 Krea [dev] ist ein Open-Source-Bilderzeugungstool, das von Black Forest Labs in Zusammenarbeit mit Krea AI entwickelt und auf der Hugging Face-Plattform gehostet wird. Es basiert auf einer gleichgerichteten Flussumwandlung mit 12 Milliarden Parametern...

Diffuman4D: Generierung originalgetreuer 4D-Ansichten des menschlichen Körpers aus spärlichem Video
Diffuman4D ist ein Projekt, das vom ZJU3DV-Forschungsteam an der Zhejiang-Universität entwickelt wurde und sich auf die Generierung originalgetreuer 4D-Ansichten des menschlichen Körpers aus dünn besiedelten Videos konzentriert. Das Projekt kombiniert das räumlich-zeitliche Diffusionsmodell und die 4DGS (4D Gaussian Splatting)-Technik, die die Schwierigkeiten herkömmlicher Methoden bei der Erzeugung spärlicher...

Einführung von FLUX.1 Kontext und BFL Playground
Heute sind wir stolz darauf, FLUX.1 Kontext zu veröffentlichen - eine Reihe von generativen Flow-Matching-Modelle zur Unterstützung der Bilderzeugung und Bearbeitung. Im Gegensatz zu bestehenden textbasierten Bildgenerierungsmodellen unterstützt die FLUX.1 Kontext-Familie kontextabhängige...

PartCrafter: Generierung bearbeitbarer 3D-Teilemodelle aus einem einzigen Bild
PartCrafter ist ein innovatives Open-Source-Projekt, das sich auf die Erzeugung editierbarer 3D-Teilemodelle aus einem einzigen RGB-Bild konzentriert. Es verwendet fortschrittliche strukturierte 3D-Generierungstechniken, um gleichzeitig mehrere semantisch sinnvolle 3D-Teile aus einem einzigen Bild zu generieren, die für die Spieleentwicklung, das Produktdesign und andere Bereiche geeignet sind. Das Projekt basiert auf einem vortrainierten 3D-Mesh-Diffusionstransformator...

HiDream-I1
HiDream-I1 ist ein Open-Source-Basismodell für die Bilderzeugung mit 17 Milliarden Parametern, mit dem sich schnell Bilder in hoher Qualität erzeugen lassen. Benutzer müssen nur eine Textbeschreibung eingeben, das Modell kann eine Vielzahl von Stilen erzeugen, darunter realistische, Cartoon, Kunst und andere Bilder. Das Projekt wird vom HiDream.ai-Team entwickelt und auf GitHub unter der MIT-Lizenz gehostet...

Imagen 4
Das kürzlich vorgestellte Modell Imagen 4 von Google DeepMind, die neueste Version seiner Bilderzeugungstechnologie, entwickelt sich schnell zu einem Brennpunkt der Branche. Das Modell hat erhebliche Fortschritte bei der Verbesserung des Reichtums, der Detailgenauigkeit und der Geschwindigkeit der Bilderzeugung gemacht, um die Fantasie der Nutzer auf bisher nicht gekannte Weise zum Leben zu erwecken. Derzeit ist die Verwendung von ...

StarVector: ein Basismodell zur Erzeugung von SVG-Vektorgrafiken aus Bildern und Text
StarVector ist ein Open-Source-Projekt, das von Entwicklern wie Juan A. Rodriguez ins Leben gerufen wurde, um Bilder und Text in skalierbare Vektorgrafiken (SVG) zu konvertieren. Dieses Tool verwendet ein visuelles Sprachmodell, das Bildinhalte und Textanweisungen versteht, um hochwertigen SVG-Code zu erzeugen. Seine Hauptmerkmale sind...

AnyText
AnyText ist ein revolutionäres mehrsprachiges visuelles Texterzeugungs- und -bearbeitungswerkzeug, das auf der Grundlage des Diffusionsmodells entwickelt wurde. Es erzeugt natürlichen, hochwertigen mehrsprachigen Text in Bildern und unterstützt flexible Textbearbeitungsmöglichkeiten. Es wurde von einem Forscherteam entwickelt und erhielt auf der Konferenz ICLR 2024 die Auszeichnung Spotlight...

OmniGen
OmniGen ist ein von VectorSpaceLab entwickeltes “universelles” Bilderzeugungsmodell, das es den Benutzern ermöglicht, mit einfachen Texteingaben oder multimodalen Eingaben vielfältige und kontextreiche visuelle Darstellungen zu erstellen. Es eignet sich besonders für Szenen, die eine Zeichenidentifikation und ein konsistentes Zeichenrendering erfordern. Benutzer können bis zu drei Bilder hochladen...

CogView3: Wisdom Spectrums quelloffenes Kaskaden-Diffusions-Textgenerierungs-Bildmodell
Umfassende Einführung CogView3 ist ein fortschrittliches Bildsystem zur Texterzeugung, das von der Tsinghua-Universität und dem Think Tank Team (Smart Spectrum Qingyan) entwickelt wurde. Es basiert auf dem kaskadierenden Diffusionsmodell und generiert hochauflösende Bilder in mehreren Stufen. Zu den Hauptmerkmalen von CogView3 gehören die mehrstufige Generierung, die innovative Architektur und die effiziente Leistung, die sich für die Erstellung von Kunstwerken, das Design von Werbung, die Entwicklung von Spielen und viele andere...
zurück zum Anfang