GPT-Image-Edit ist ein Open-Source-Tool, das auf GitHub gehostet und vom Benutzer wyhlovecpp (Yuhan Wang) entwickelt wurde. Es basiert auf der Bilderzeugungstechnologie von OpenAI und ermöglicht es Benutzern, Bilder mit einfachen Textbefehlen zu erzeugen oder zu bearbeiten. Das Tool eignet sich für Entwickler, Designer oder Benutzer, die sich für die KI-Bildverarbeitung interessieren. Das Projekt bietet eine intuitive Schnittstelle, die es den Nutzern ermöglicht, Bilder hochzuladen und Bildänderungen durch beschreibenden Text vorzunehmen, z. B. den Hintergrund zu ändern, Objekte hinzuzufügen oder den Stil anzupassen. Die Hauptstärke des Projekts liegt darin, dass es die Leistungsfähigkeit der KI-Bildverarbeitung mit einem einfachen Verfahren für einen schnellen Start kombiniert. Das Projekt befindet sich noch in der Entwicklung, und der Code und die Dokumentation sind öffentlich zugänglich, um Beiträge und Feedback der Gemeinschaft zu fördern.
Funktionsliste
- Erzeugen Sie neue Bilder mit Textbefehlen.
- Unterstützt das Hochladen von Bildern und deren Bearbeitung anhand von Textbeschreibungen.
- Bietet Funktionen zur Konvertierung von Bildstilen, wie z. B. die Konvertierung von Bildern in Cartoon- oder Kunststile.
- Unterstützt die Stapelverarbeitung von Bildern, geeignet für umfangreiche Bearbeitungsaufgaben.
- Offener Quellcode mit benutzerdefinierten Funktionen oder Integration in andere Projekte.
- Bieten Sie eine einfache API-Schnittstelle für Entwickler an.
Hilfe verwenden
Einbauverfahren
Um GPT-Image-Edit zu verwenden, müssen Sie zunächst das Projekt klonen und die Entwicklungsumgebung einrichten. Im Folgenden finden Sie die detaillierten Installationsschritte:
- Klon-Lager
Klonen Sie das Projekt lokal, indem Sie den folgenden Befehl in einem Terminal oder einer Befehlszeile ausführen:git clone https://github.com/wyhlovecpp/GPT-Image-Edit.git cd GPT-Image-Edit
- Installation von Abhängigkeiten
Das Projekt stützt sich auf die Python-Umgebung und einige Bibliotheken von Drittanbietern. Stellen Sie sicher, dass Sie Python 3.7 oder höher installiert haben. Führen Sie es dann aus:pip install -r requirements.txt
Dieser Befehl installiert die notwendigen Bibliotheken, wie z.B.
openai
undpillow
usw. Wenn Sie Probleme mit Abhängigkeiten haben, können Sie dierequirements.txt
Datei, um sicherzustellen, dass alle Bibliotheksversionen übereinstimmen. - API-Schlüssel konfigurieren
GPT-Image-Edit verwendet die API von OpenAI und benötigt einen API-Schlüssel, um konfiguriert zu werden. Benutzer müssen sich bei der OpenAI-Plattform registrieren und den Schlüssel erhalten. Fügen Sie den Schlüssel in eine Umgebungsvariable oder eine Konfigurationsdatei ein:- Erstellen einer
.env
Datei, schreiben:OPENAI_API_KEY=your_openai_api_key_here
- Oder legen Sie ihn direkt im Code fest:
client = OpenAI(api_key="your_openai_api_key_here")
- Erstellen einer
- Laufende Projekte
Nach Abschluss der Konfiguration führen Sie die Hauptprogrammdatei aus (z. B.main.py
):python main.py
Das Projekt startet eine einfache lokale Schnittstelle, die genaue Funktionsweise kann sich aufgrund von Codeaktualisierungen ändern, es wird empfohlen, sich in der
README.md
Dokumentation.
Hauptfunktionen
1. die Bilderzeugung
Benutzer können aus Textbeschreibungen völlig neue Bilder erzeugen. Wenn Sie zum Beispiel ein Bild von einem "Schloss bei Nacht unter den Sternen" erzeugen möchten, geben Sie einfach ein:
prompt = "A castle under a starry night sky, in a fantasy style"
result = client.images.generate(model="gpt-image-1", prompt=prompt, size="1024x1024")
Das generierte Bild wird in base64-Kodierung zurückgegeben und der Code wird automatisch als lokale Datei gespeichert (z. B. output.png
). Der Benutzer kann die size
Parameter (z.B. 512x512
vielleicht 1024x1536
) die Auflösung kontrollieren.
2. vorhandene Bilder bearbeiten
Benutzer können ein Bild hochladen und es mit Textbefehlen ändern. Zum Beispiel, um einem Bild von einer Katze einen Hut hinzuzufügen:
- Hochladen von Bildern: Platzieren Sie eine Bilddatei (z. B.
cat.png
) in den vom Projekt angegebenen Ordner (normalerweiseimgs/
). - Geben Sie den Befehl edit ein:
img_input = open("imgs/cat.png", "rb") prompt_edit = "Add a red hat on the cat, in a cartoon style" result_edit = client.images.edit(model="gpt-image-1", image=img_input, prompt=prompt_edit)
- Ergebnis speichern: Das bearbeitete Bild wird unter dem angegebenen Pfad gespeichert (z. B.
imgs/edited_cat.png
).
3. die Bearbeitung mit Masken
Mit der Maskenfunktion kann der Benutzer einen bestimmten Bereich des Bildes festlegen, der bearbeitet werden soll, während der Rest vor Änderungen geschützt wird. Arbeitsschritte:
- Bereiten Sie das Maskenbild vor: Verwenden Sie eine Bildbearbeitungssoftware (z. B. Photoshop), um eine Schwarz-Weiß-Maske zu erstellen, wobei der schwarze Teil den zu bearbeitenden Bereich angibt und der weiße Teil unverändert bleibt. Stellen Sie sicher, dass die Maske einen Alphakanal enthält.
- Code-Beispiel:
img_input = open("imgs/cat.png", "rb") mask_input = open("imgs/mask.png", "rb") prompt_mask = "Change the background to a forest scene" result_mask = client.images.edit(model="gpt-image-1", image=img_input, mask=mask_input, prompt=prompt_mask)
- Hinweis: Die Bearbeitung der Maske ist möglicherweise nicht präzise genug und das Modell wirkt sich manchmal auf den Inhalt innerhalb des Maskenbereichs aus. Es wird empfohlen, die Stichwörter zu testen und zu optimieren.
4. stilistische Verschiebungen
Der Benutzer kann den Bildstil mit Hilfe des Stichworts ändern. Verwandeln Sie zum Beispiel ein Foto in ein Ölgemälde:
prompt_style = "Convert this image to an oil painting style"
result_style = client.images.edit(model="gpt-image-1", image=open("imgs/photo.png", "rb"), prompt=prompt_style)
Das Ergebnis ist ein Bild, das den ursprünglichen Inhalt beibehält, aber den gewünschten künstlerischen Stil aufweist.
Tipps und Tricks
- Stichwort WortoptimierungJe spezifischer der Hinweis ist, desto besser ist die Generierung. Zum Beispiel: "eine schwarze Katze, die auf einem Holztisch sitzt und einen roten Hut trägt, mit einem Sonnenuntergang im Hintergrund" funktioniert besser als "eine Katze, die einen Hut trägt".
- StapeldateiDas Projekt unterstützt die gleichzeitige Bearbeitung mehrerer Bilder und ist für Benutzer geeignet, die eine große Anzahl von Bildern schnell bearbeiten müssen.
- Fehlersuche und ProtokollierungÜberprüfen Sie die Konsolenausgabe zur Laufzeit, um sicherzustellen, dass der API-Aufruf erfolgreich war. Wenn ein Fehler auftritt, überprüfen Sie den API-Schlüssel oder die Netzwerkverbindung.
caveat
- Das Projekt benötigt eine stabile Netzwerkverbindung, um die OpenAI API aufzurufen.
- Vergewissern Sie sich, dass Ihr OpenAI-Konto verifiziert ist, sonst funktioniert es möglicherweise nicht!
gpt-image-1
Modelle. - Der Projektcode kann sich aufgrund von Aktualisierungen ändern, und es wird empfohlen, das GitHub-Repository regelmäßig auf die neuesten Änderungen zu überprüfen.
Anwendungsszenario
- Erstellung von Inhalten
Designer können GPT-Image-Edit verwenden, um schnell Bildmaterial zu erstellen oder zu ändern. Erstellen Sie zum Beispiel Social-Media-Poster oder passen Sie den Hintergrund von Produktbildern an. - Bildung und Forschung
Studenten und Forscher können damit KI-Bilderzeugungstechniken erforschen, die Wirkung verschiedener Stichworte testen oder Bildverarbeitungsfunktionen in akademische Projekte integrieren. - Spieleentwicklung
Spieleentwickler können schnell Konzeptzeichnungen erstellen oder Charakterbilder bearbeiten und den Stil an das Thema des Spiels anpassen. - Automatisierte Arbeitsabläufe
Geschäftsanwender können das Tool in automatisierte Arbeitsabläufe integrieren, um Produktbilder stapelweise zu verarbeiten oder kundenspezifische Marketingmaterialien zu erstellen.
QA
- Muss ich für die Nutzung bezahlen?
GPT-Image-Edit selbst ist kostenlos und quelloffen, erfordert aber einen OpenAI-API-Schlüssel, und die Nutzung der API ist je nach den Abrechnungstarifen von OpenAI gebührenpflichtig. - Welche Bildformate werden unterstützt?
Gängige Formate wie PNG und JPEG werden unterstützt. Maskendateien müssen einen Alphakanal enthalten und werden normalerweise im PNG-Format gespeichert. - Wie lässt sich die Qualität der erzeugten Bilder verbessern?
Legen Sie Stile, Farben und Szenen mit detaillierten Stichwörtern fest. Passen Sie die Auflösungsparameter an (z. B.1024x1024
) kann die Bildschärfe verbessern. - Kann es offline verwendet werden?
Die Offline-Nutzung wird nicht unterstützt, und die Bilderzeugung und -bearbeitung erfolgt über die Cloud-API von OpenAI.