SkyworkUniPic ist ein von SkyworkAI entwickeltes multimodales Open-Source-Modell, das sich auf das Verstehen von Bildern, textgenerierten Bildern und die Bildbearbeitung konzentriert. Es integriert drei visuelle Sprachaufgaben unter Verwendung einer einzigen Architektur mit 150 Millionen Parametern. Die Benutzer können die Bilderzeugung und -bearbeitung mit 1024×1024 Pixeln auf Consumer-GPUs wie der RTX 4090 ausführen. UniPic schneidet in Benchmarks wie GenEval, DPG-Bench und anderen gut ab und eignet sich daher für Entwickler, die visuelle KI-Anwendungen untersuchen. Der Projektcode und die Modellgewichte sind auf GitHub unter der MIT-Lizenz verfügbar, die die freie Nutzung und Modifikation fördert.
Funktionsliste
- grafisches VerständnisAnalyse des Inhalts der eingegebenen Bilder, um relevante Fragen zu beantworten oder Informationen zu extrahieren.
- Text zu BildErzeugt qualitativ hochwertige Bilder von 1024 x 1024 Pixeln auf der Grundlage von Textbeschreibungen.
- BildbearbeitungÄndern Sie das Bild mit Textbefehlen, indem Sie zum Beispiel bestimmte Elemente ersetzen oder den Stil anpassen.
- Unterstützung für Consumer-Grade-HardwareLäuft effizient auf GPUs wie der RTX 4090, ohne dass eine spezielle Ausrüstung erforderlich ist.
- Gewichtung von Open-Source-ModellenBietet vortrainierte Modelle, die Entwickler direkt herunterladen und anpassen können.
Hilfe verwenden
Einbauverfahren
Die Installation und Verwendung von UniPic erfordert eine grundlegende Python-Umgebung und GPU-Unterstützung. Im Folgenden werden die einzelnen Installationsschritte beschrieben:
- Klon-Lager::
Öffnen Sie ein Terminal und führen Sie den folgenden Befehl aus, um das UniPic-Repository zu klonen:git clone https://github.com/SkyworkAI/UniPic cd UniPic
- Erstellen einer virtuellen Umgebung::
Erstellen Sie eine Python 3.10.14-Umgebung mit conda und stellen Sie die Isolierung von Abhängigkeiten sicher:conda create -n unipic python=3.10.14 conda activate unipic
- Installation von Abhängigkeiten::
Installieren Sie die für Ihr Projekt benötigten Python-Bibliotheken:pip install -r requirements.txt
- Download Modellgewichte::
UniPic bietet vortrainierte Modellgewichte, die von Hugging Face heruntergeladen werden müssen. Führen Sie den folgenden Befehl aus:pip install -U "huggingface_hub[cli]" huggingface-cli download Skywork/Skywork-UniPic-1.5B --local-dir checkpoint --repo-type model
- Setzen von Umgebungsvariablen::
Fügt dem Skriptlauf einen Projektpfad hinzu:export PYTHONPATH=./:$PYTHONPATH
Funktion Betriebsablauf
UniPic unterstützt drei Hauptfunktionen: Bildverständnis, Text-zu-Bild-Generierung und Bildbearbeitung. Detaillierte Bedienungsanweisungen finden Sie weiter unten:
1. text zu bild
Der Benutzer kann ein 1024 x 1024 Pixel großes Bild mit einer Textbeschreibung erstellen. Erzeugen Sie zum Beispiel ein Bild eines Golden Retrievers, der in einem Park auf dem Rasen steht:
- Verfahren::
Führen Sie die folgenden Befehle aus, um das Modellprofil, die Gewichtspfade und die Texteingabeaufforderungen festzulegen:python scripts/text2image.py configs/models/qwen2_5_1_5b_kl16_mar_h.py \ --checkpoint checkpoint/pytorch_model.bin \ --image_size 1024 \ --prompt "A glossy-coated golden retriever stands on the park lawn beside a life-sized penguin statue." \ --output output.jpg
- caveat::
- Derzeit werden nur 1024×1024 Pixel für die Bilderzeugung unterstützt.
- Die Textaufforderungen müssen klar und spezifisch sein, damit sie besser erstellt werden können.
- Das Ausgabebild wird im angegebenen
output.jpg
Dokumentation.
2. die Bildbearbeitung
UniPic ermöglicht es dem Benutzer, ein bestehendes Bild mit Textbefehlen zu verändern. Zum Beispiel können Sie die Sterne in einem Bild durch Kerzen ersetzen:
- Verfahren::
Bereiten Sie ein Eingabebild vor (z. B.data/sample.png
), führen Sie den folgenden Befehl aus:python scripts/image_edit.py configs/models/qwen2_5_1_5b_kl16_mar_h.py \ --checkpoint checkpoint/pytorch_model.bin \ --image_size 1024 \ --image data/sample.png \ --prompt "Replace the stars with the candle." \ --output output.jpg
- caveat::
- Das Eingabebild sollte 1024 x 1024 Pixel groß sein.
- Textanweisungen müssen die Änderung klar beschreiben, z. B. das Ersetzen, Hinzufügen oder Entfernen von Elementen.
- Das bearbeitete Bild wird gespeichert als
output.jpg
.
3. das Verständnis von Bildern
UniPic kann Bildinhalte analysieren und damit verbundene Fragen beantworten. Derzeit werden keine eigenständigen Skripte für das Bildverständnis im Repository bereitgestellt, aber Entwickler können ihre Implementierungen auf der Grundlage von Modellgewichten und dem Qwen2.5-Framework anpassen.
- Betriebsvorschlag::
- Verwenden Sie die Transformers-Bibliothek von Hugging Face, um das Modell zu laden.
- Bereiten Sie Bilder und Fragen vor und rufen Sie die Inferenz-Schnittstelle des Modells auf, um Antworten zu erhalten.
- Lesen Sie die Dokumentation von SkyworkAI oder Beispiele aus der Community, um bestimmte Funktionen zu implementieren.
Weitere nützliche Tipps
- Hardware-VoraussetzungNVIDIA RTX 4090 oder höhere Grafikprozessoren mit mindestens 24 GB Videospeicher werden empfohlen.
- Debugging-ProblemeWenn Sie auf einen Abhängigkeitskonflikt stoßen, prüfen Sie die Python-Version und die CUDA-Kompatibilität.
- Unterstützung der GemeinschaftBesuchen Sie die Issues-Seite Ihres GitHub-Repositorys, um häufig gestellte Fragen zu sehen oder neue Fragen zu stellen.
- Modell-OptimierungEntwicklung: Entwickler können die Modellgewichte für bestimmte Aufgaben oder Datensätze fein abstimmen.
Anwendungsszenario
- Erstellung von Inhalten
UniPic ist für Blogger, Designer und andere Kreative geeignet, um hochwertige Bilder zu erstellen. Generieren Sie zum Beispiel Werbebilder, die dem Stil einer Marke entsprechen, oder erstellen Sie automatisch Illustrationen auf der Grundlage von Artikelinhalten. - Bildung und Forschung
Forscher können UniPic nutzen, um die Möglichkeiten der multimodalen KI zu erforschen. Studierende können mit Hilfe von Open-Source-Code Bildverarbeitungs- und Generierungstechniken erlernen. - Elektronischer Geschäftsverkehr und Werbung
Händler können UniPic verwenden, um Produktbilder zu bearbeiten, z. B. um den Hintergrund zu ändern oder Werbeelemente hinzuzufügen, um die visuelle Attraktivität zu erhöhen. - Spieleentwicklung
Entwickler können Spiel-Szenarien oder Charakter-Konzeptzeichnungen erstellen, um Design-Ideen schnell zu überarbeiten.
QA
- Welche Bildauflösungen werden von UniPic unterstützt?
Derzeit werden nur 1024×1024 Pixel für die Bilderstellung und -bearbeitung unterstützt. - Brauche ich einen speziellen Grafikprozessor, um UniPic auszuführen?
Nicht erforderlich. Consumer-GPUs (z. B. RTX 4090) können verwendet werden, 24 GB oder mehr Videospeicher werden empfohlen. - Wie erhalte ich Modellgewichte?
Herunterladen über Hugging Face, laufenhuggingface-cli download Skywork/Skywork-UniPic-1.5B
Befehl. - Ist UniPic im Handel erhältlich?
Ja, UniPic ist unter der MIT-Lizenz lizenziert, die die kommerzielle Nutzung, Veränderung und Verbreitung erlaubt. - Wie ist die Qualität der Bilderzeugung?
UniPic erzielte 0,86 Punkte bei GenEval und 85,5 Punkte bei DPG-Bench und damit eine bessere Qualität als einige der größeren Modelle.