Black Forest Labs, das sich auf die Entwicklung innovativer generativer KI-Modelle konzentriert, und Applied AI Labs Krea AI hat kürzlich eine Partnerschaft für ein neues Produkt namens FLUX.1 Das Open-Source-Modell Weighted Vincennes von Krea [dev]. Das Hauptziel des Modells ist es, das Problem der Übersättigung und des unnatürlichen Textur-"KI-Gefühls" zu lösen, das bei vielen aktuellen KI-generierten Bildern auftritt, und durch seinen einzigartigen ästhetischen Ansatz realistischere Bilder zu erzeugen.
"Meinungsstarker" Ansatz zur Bilderzeugung
FLUX.1 Krea [dev] wurde als "meinungsorientiertes" Grafikmodell beschrieben, eine Positionierung, die es unter den Bildgenerierungswerkzeugen einzigartig macht. Meinungsorientiert zu sein bedeutet, dass das Modell während der Trainingsphase eine bestimmte ästhetische Ausrichtung erhält, um ästhetisch ansprechendere, vielfältigere und visuell ansprechende Bilder zu erzeugen, anstatt ein neutrales Werkzeug zu sein, das passiv auf Anweisungen reagiert. Durch diesen Ansatz werden übermäßige Glättung, übermäßige Hervorhebungen und plastische Texturen, die in den generierten Ergebnissen häufig vorkommen, wirksam vermieden, was den Benutzern ein überraschend kreatives Erlebnis bietet.
Zusammenarbeit mit Stable Diffusion
In vergleichenden Tests von Modellen wieFLUX.1
Es zeigt einen klaren Vorteil bei der Handhabung komplexer Szenen, der Wiedergabe dynamischer Effekte und der Beibehaltung grafischer Details, insbesondere bei der Darstellung von Themen, die viel Fantasie erfordern, wie z. B. surreale Landschaften oder futuristische Städte.
Laut der offiziellen Bewertung der menschlichen Präferenzen liegt FLUX.1 Krea [dev] trotz seiner einzigartigen stilistischen Tendenzen an der Spitze der Open-Source-Modelle und kann sogar mit kommerziellen Lösungen wie dem Closed-Source-Modell FLUX.1.1 [pro] mithalten.
Architektonische Innovation: Abschied vom U-Netz, Umarmung des Transformators
FLUX.1 Krea [dev] bleibt architektonisch kompatibel mit dem FLUX.1 [dev] Ökosystem. Kompatibel mit Stable Diffusion
Weit verbreitete Serien U-Net
Die Architektur ist anders.FLUX.1
Serie verwendet eine Hybridarchitektur mit einem 12-Milliarden-Parameter-Kern, der vollständig auf dem Transformer
Der Entwurf.
Um die vom Benutzer eingegebenen Worte genauer zu verstehen, verwendet die Architektur einen doppelten Textkodierer: einen CLIP
Kodierer (clip_l.safetensors
) und eine größere T5-XXL
Kodierer (t5xxl_fp16.safetensors
). Dieses Design ermöglicht es, sowohl die feinkörnige Semantik als auch den Makrokontext des Textes zu erfassen, so dass es bei komplexen, objektübergreifenden, langen Texthinweisen eine weitaus höhere Adhärenz aufweist als ein einzelnes Kodiermodell. Das Modell ist auch für die präzise Darstellung der menschlichen Anatomie optimiert (insbesondere für traditionell schwierige Bereiche wie die Hände), und zwar mit deutlich höherer Genauigkeit als vergleichbare Modelle.
Was die Ausbildungsmethoden betrifft.FLUX.1
Flow Matching, eine effizientere Trainingsmethode als das traditionelle Diffusionsverfahren, trägt zur Verbesserung der Kohärenz und stilistischen Vielfalt der Bilderzeugung bei.
Modellgewichte für FLUX.1 Krea [dev] sind derzeit in der HuggingFace-Codebasis verfügbar und können über die FAL.ai
und Replicate
und Runware
und DataCrunch
im Gesang antworten TogetherAI
Das Modell ist mit APIs integriert, die von mehreren Plattformen bereitgestellt werden. Es ist erwähnenswert, dass es aufgrund der großen Anzahl von Parametern Hardware-Anforderungen gibt, um das Modell auszuführen, und es wird empfohlen, eine Grafikkarte mit mindestens 24 GB VRAM für die beste Erfahrung zu verwenden, während Benutzer mit wenig VRAM sich für die quantisierte FP8-Version entscheiden oder auf die weitere Optimierung durch die Community warten können.
Wesentliche Merkmale
- Erstklassige BilderzeugungBietet eine Bildqualität und Wortverfolgungsfähigkeiten, die mit denen von branchenführenden Modellen vergleichbar sind.
- Einzigartiger ästhetischer StilDas Ergebnis ist ein realistischeres und künstlerischeres Bild, das das vorherrschende "KI-Gefühl" wirksam umgeht.
- Hervorragende DetailwiedergabeHervorragend im Umgang mit komplexen Kompositionen und feinen menschlichen Strukturen.
- Flexible Anpassung: Kann als Basismodell für die Feinabstimmung nachgelagerter Anwendungen verwendet werden.
- Fortschrittliche Technologie-ArchitekturMit Hilfe eines dualen Textkodierers und basierend auf
Transformer
Die Konstruktion gewährleistet eine starke Leistung.
Der Wert des Genossenschaftsmodells
Diese Zusammenarbeit zwischen Black Forest Labs und Krea AI zeigt den Wert von Synergien zwischen grundlegender Modellforschung und vertikaler Anwendungsentwicklung, bei der Black Forest Labs leistungsstarke und flexible grundlegende Modelle bereitstellt und Krea AI diese auf reale Szenarien anwendet und optimiert - ein Modell, das es den beiden Unternehmen ermöglicht, gemeinsam die Entwicklung von Open-Source-KI-Bilderzeugungstechnologien voranzutreiben. Technologie. Durch die enge Zusammenarbeit erhält das Basismodell während der Entwicklungsphase wertvolles Anwendungsfeedback, was die Iteration beschleunigt und bisher unerreichbare Ergebnisse hervorbringt.