ShareGPT-4o-Image由FreedomIntelligence团队推出,是目前开源社区中规模最大、质量最高的多模态图像生成基准数据集之一。该数据集包含91,000个经过严格筛选的样本,其中45,000个专注于文本到图像生成,46,000个支持文本加图像到图像的编辑任务。基于GPT-4o强大的图像生成能力构建,数据集在语义理解、细节还原和创意表现方面都达到业界领先水平。
该数据集采用Parquet格式存储,体积仅20.7MB,却包含92,256行高质量数据,展现出极高的数据密度。不同于传统开源数据集,ShareGPT-4o-Image专门为对齐GPT-4o的先进图像生成能力而设计,能够显著提升开源模型在多模态任务上的表现。数据集在Hugging Face平台免费开放下载,为研究者提供了可直接用于模型训练的标准基准。
Essa resposta foi extraída do artigoShareGPT-4o-Image: um conjunto de dados de geração de imagens multimodais de código abertoO