Die interaktive Mehrrunden-Bearbeitungsfunktion des Modells revolutioniert die Beschränkungen der herkömmlichen Bilderzeugung in einer einzigen Aufnahme. Die Benutzer können ihre Arbeit schrittweise durch iterative Befehle optimieren: Zunächst wird ein Basisbild erzeugt und dann werden bestimmte Elemente durch Hinzufügen von Hinweisen angepasst, z. B.Hintergrund von Tag auf Abenddämmerung ändern'.vielleichtFirmenlogo in der rechten unteren Ecke hinzufügen".. Auf technischer Ebene wird der autoregressive Token-Vorhersagemechanismus zusammen mit der Hidden-Space-Darstellung von MoVQGAN verwendet, so dass für jede Bearbeitung nur lokale Berechnungen erforderlich sind, was im Vergleich zur vollständigen Neuerstellung 70% Rechenressourcen einspart. Praktische Tests zeigen, dass bei gleicher Komplexität der Entwurfsaufgabe die Bearbeitung in mehreren Runden die Neugenerierung um das 3-5-fache reduziert, was die Effizienz der Designer erheblich verbessert.
Diese Antwort stammt aus dem ArtikelLumina-mGPT-2.0: ein autoregressives Bilderzeugungsmodell zur Bewältigung mehrerer BilderzeugungsaufgabenDie