ShareGPT-4o-Image, vorgestellt vom FreedomIntelligence-Team, ist einer der größten und qualitativ hochwertigsten Benchmark-Datensätze für multimodale Bilderzeugung, die derzeit in der Open-Source-Community verfügbar sind. Der Datensatz enthält 91.000 streng geprüfte Beispiele, von denen sich 45.000 auf die Generierung von Text zu Bild und 46.000 auf die Bearbeitung von Text und Bild zu Bild konzentrieren. Auf der Grundlage der leistungsstarken Bilderzeugungsfunktionen von GPT-4o erreicht der Datensatz ein branchenführendes Niveau in Bezug auf semantisches Verständnis, Detailreduzierung und kreative Leistung.
Der Datensatz ist im Parquet-Format gespeichert und enthält 92.256 Zeilen hochwertiger Daten in einem Volumen von nur 20,7 MB, was eine extrem hohe Datendichte darstellt. Im Gegensatz zu herkömmlichen Open-Source-Datensätzen wurde ShareGPT-4o-Image speziell entwickelt, um die fortschrittlichen Bilderzeugungsfunktionen von GPT-4o zu nutzen, die die Leistung von Open-Source-Modellen bei multimodalen Aufgaben erheblich verbessern können. Der Datensatz kann kostenlos und offen auf der Hugging Face-Plattform heruntergeladen werden und bietet Forschern einen Standard-Benchmark, der direkt für das Modelltraining verwendet werden kann.
Diese Antwort stammt aus dem ArtikelShareGPT-4o-Image: ein quelloffener Datensatz zur multimodalen BilderzeugungDie