O SkyworkUniPic é um modelo multimodal de código aberto desenvolvido pela SkyworkAI que se concentra em três funções principais: compreensão de imagens, imagens geradas por texto e edição de imagens. Ele integra essas tarefas de linguagem visual usando uma única arquitetura de 150 milhões de parâmetros, permitindo que os desenvolvedores lidem com várias tarefas relacionadas a imagens em uma estrutura unificada. O modelo apresenta bom desempenho em benchmarks como GenEval e DPG-Bench, comprovando suas capacidades de geração e compreensão de imagens.
O modelo está sob a licença MIT, e tanto o código quanto os pesos do modelo estão abertos no GitHub, incentivando os desenvolvedores a usá-los e modificá-los livremente. Essa estratégia de código aberto reduz significativamente o limite para que os desenvolvedores explorem os aplicativos de IA visual e, ao mesmo tempo, facilita as contribuições da comunidade.
Essa resposta foi extraída do artigoSkyworkUniPic: um modelo de código aberto para compreensão e geração de imagens de processamento unificadoO































