Qwen-Image-Edit: KI-Modell zur Bearbeitung von Bildern auf der Grundlage von Textbefehlen
Qwen-Image-Edit ist ein vom Alibaba Tongyi Qianqian-Team entwickeltes KI-Modell zur Bildbearbeitung. Es wurde auf der Grundlage des Qwen-Image-Modells mit 20 Milliarden Parametern trainiert und seine Kernfunktion besteht darin, dass Benutzer Bilder durch einfache chinesische oder englische Textbefehle ändern können. Dieses Modell nutzt auch visuelle...
Qwen-Image: ein KI-Tool für die Erstellung naturgetreuer Bilder mit präziser Textwiedergabe
Qwen-Image ist ein 20B parametrisches multimodales Diffusionsmodell (MMDiT), das vom Qwen-Team entwickelt wurde und sich auf die originalgetreue Bilderzeugung und die genaue Textwiedergabe konzentriert. Es zeichnet sich durch komplexe Textverarbeitung (insbesondere Chinesisch und Englisch) und Bildbearbeitung aus. Das Modell unterstützt eine Vielzahl von Kunststilen wie z. B. realistische,...
SkyworkUniPic: Ein Open-Source-Modell für einheitliche Bildverarbeitung und -erzeugung
SkyworkUniPic ist ein von SkyworkAI entwickeltes multimodales Open-Source-Modell, das sich auf das Verstehen von Bildern, textgenerierten Bildern und die Bildbearbeitung konzentriert. Es integriert drei visuelle Sprachaufgaben unter Verwendung einer einzigen Architektur mit 150 Millionen Parametern. Benutzer können 102 auf Consumer-GPUs wie RTX 4090 ausführen...
FLUX.1 Krea: ein kostenloses Open-Source-Tool zur Erzeugung hochrealistischer Bilder
FLUX.1 Krea [dev] ist ein Open-Source-Bilderzeugungstool, das von Black Forest Labs in Zusammenarbeit mit Krea AI entwickelt und auf der Hugging Face-Plattform gehostet wird. Es basiert auf einer gleichgerichteten Flussumwandlung mit 12 Milliarden Parametern...
Diffuman4D: Generierung originalgetreuer 4D-Ansichten des menschlichen Körpers aus spärlichem Video
Diffuman4D ist ein Projekt, das vom ZJU3DV-Forschungsteam an der Zhejiang-Universität entwickelt wurde und sich auf die Generierung originalgetreuer 4D-Ansichten des menschlichen Körpers aus dünn besiedelten Videos konzentriert. Das Projekt kombiniert das räumlich-zeitliche Diffusionsmodell und die 4DGS (4D Gaussian Splatting)-Technik, die die Schwierigkeiten herkömmlicher Methoden bei der Erzeugung spärlicher...
Einführung von FLUX.1 Kontext und BFL Playground
Heute sind wir stolz darauf, FLUX.1 Kontext zu veröffentlichen - eine Reihe von generativen Flow-Matching-Modelle zur Unterstützung der Bilderzeugung und Bearbeitung. Im Gegensatz zu bestehenden textbasierten Bildgenerierungsmodellen unterstützt die FLUX.1 Kontext-Familie kontextabhängige...
PartCrafter: Generierung bearbeitbarer 3D-Teilemodelle aus einem einzigen Bild
PartCrafter ist ein innovatives Open-Source-Projekt, das sich auf die Erzeugung editierbarer 3D-Teilemodelle aus einem einzigen RGB-Bild konzentriert. Es verwendet eine fortschrittliche strukturierte 3D-Generierungstechnologie, um mehrere semantisch sinnvolle 3D-Teile gleichzeitig aus einem einzigen Bild zu generieren, die für die Spieleentwicklung, das Produktdesign und andere Bereiche geeignet sind. Das Projekt basiert auf Pre-Training...
HiDream-I1
HiDream-I1 ist ein Open-Source-Basismodell für die Bilderzeugung mit 17 Milliarden Parametern, mit dem sich schnell Bilder in hoher Qualität erzeugen lassen. Benutzer müssen nur eine Textbeschreibung eingeben, und das Modell kann Bilder in einer Vielzahl von Stilen erzeugen, darunter realistisch, Cartoon und künstlerisch. Das vom HiDream.ai-Team entwickelte und auf GitHub gehostete Projekt wählt...
Bilder 4
Das kürzlich von Google DeepMind vorgestellte Modell Imagen 4, die neueste Iteration seiner Bilderzeugungstechnologie, rückt schnell in den Fokus der Branche. Das Modell hat erhebliche Fortschritte bei der Verbesserung des Reichtums, der Detailgenauigkeit und der Geschwindigkeit der Bilderzeugung gemacht, um die Fantasie des Nutzers auf eine Weise zum Leben zu erwecken wie nie zuvor...
StarVector: ein Basismodell zur Erzeugung von SVG-Vektorgrafiken aus Bildern und Text
StarVector ist ein Open-Source-Projekt, das von Entwicklern wie Juan A. Rodriguez ins Leben gerufen wurde, um Bilder und Text in skalierbare Vektorgrafiken (SVG) zu konvertieren. Dieses Tool verwendet ein visuelles Sprachmodell, das Bildinhalte und Textanweisungen versteht, um hochwertigen SVG-Code zu erzeugen. Sein Kern...
AnyText
AnyText ist ein revolutionäres mehrsprachiges visuelles Texterzeugungs- und -bearbeitungswerkzeug, das auf der Grundlage des Diffusionsmodells entwickelt wurde. Es erzeugt natürlichen, hochwertigen mehrsprachigen Text in Bildern und unterstützt flexible Textbearbeitungsfunktionen. Es wurde von einem Forscherteam entwickelt und erhielt auf der Konferenz ICLR 2024 die Auszeichnung Spotlight...
OmniGen
OmniGen ist ein von VectorSpaceLab entwickeltes "universelles" Bilderzeugungsmodell, das es den Benutzern ermöglicht, mit einfachen Texteingaben oder multimodalen Eingaben vielfältige und kontextreiche visuelle Darstellungen zu erstellen. Es eignet sich besonders für Szenen, die eine Zeichenerkennung und ein konsistentes Zeichenrendering erfordern. Benutzer...
CogView3: Wisdom Spectrums quelloffenes Kaskaden-Diffusions-Textgenerierungs-Bildmodell
Umfassende Einführung CogView3 ist ein fortschrittliches Bildsystem zur Texterzeugung, das von der Tsinghua-Universität und dem Think Tank Team (Chi Spectrum Qingyan) entwickelt wurde. Es basiert auf dem kaskadierenden Diffusionsmodell und erzeugt hochauflösende Bilder in mehreren Stufen. Zu den Hauptmerkmalen von CogView3 gehören die mehrstufige Erzeugung, die innovative Architektur und die effiziente Leistung für die künstlerische Gestaltung...
zurück zum Anfang