Leitlinien zur Verbesserung der redaktionellen Genauigkeit
Für das Genauigkeitsproblem beim Parsen von natürlichsprachlichen Anweisungen wird der folgende Ansatz vorgeschlagen:
- Vorlagen für strukturierte Anleitungen: Verwenden Sie das Format "Betreff+Aktion+Eigenschaft", z. B."Ersetze [Pose] durch [erhobene Hände] für [Person in Rot links]"60% Verbesserung gegenüber Fuzzy-Befehlseffekt (basierend auf GEdit-Bench-Testdaten)
- Unterstützung bei der FlächenetikettierungIm ComfyUI-Plugin können Sie den Bearbeitungsbereich mit dem Kastenauswahlwerkzeug festlegen und es mit dem Textbefehl kombinieren, um eine globale Änderung zu vermeiden.
- Strategie der schrittweisen VeredelungKomplexe Bearbeitungen sollten in mehrere Schritte unterteilt werden, die nacheinander abgearbeitet werden, z. B. zuerst"Entfernen Sie Unordnung im Hintergrund".dann (nach etw., und nicht erst dann)"Füge einen Sterneffekt hinzu".
Besonderer Hinweis: Modellreaktionen auf konkrete Attribute wie Farbe, Position usw. sind abstrakten Beschreibungen vorzuziehen, und die Direktiven sollten z. B. Folgendes enthalten"Chamois-Blau".und"Rechte obere Ecke".expliziter Qualifizierer
Diese Antwort stammt aus dem ArtikelStep1X-Edit: Ein Open-Source-Tool für die Bearbeitung von Bildern mit Anweisungen in natürlicher SpracheDie































