Programa de aquisição de dados multimodais de alta qualidade
Para o problema de qualidade de dados de treinamento multimodal, o ShareGPT-4o-Image oferece as seguintes soluções:
- Dados de qualidade gerados com o GPT-4oTodas as amostras do conjunto de dados são do GPT-4o para garantir a qualidade da geração
- Cobertura diversificada de amostras: 91 mil amostras contêm combinações de texto para imagem e de gráfico para texto
- Acesso simplesDownload direto do conjunto de dados de 20,7 MB no formato Parquet via Hugging Face
- Processamento normalizadoDados limpos e estruturados para uso direto no treinamento
- Métodos estendidosCombine outros conjuntos de dados de código aberto para treinamento híbrido a fim de aumentar a robustez do modelo
Observação: Recomenda-se analisar a distribuição dos dados e dividir razoavelmente o conjunto de treinamento/validação ao usá-lo pela primeira vez.
Essa resposta foi extraída do artigoShareGPT-4o-Image: um conjunto de dados de geração de imagens multimodais de código abertoO

































