O SkyworkUniPic é um modelo multimodal de código aberto desenvolvido pela SkyworkAI que se concentra em três funções principais: compreensão de imagens, imagens geradas por texto e edição de imagens. Ele usa uma única arquitetura de 150 milhões de parâmetros para integrar várias tarefas de linguagem visual. Os recursos específicos incluem:
- compreensão gráficaAnálise do conteúdo das imagens de entrada para responder a perguntas relevantes ou extrair informações.
- Texto para imagemGeração de imagens de alta qualidade de 1024 x 1024 pixels com base em descrições de texto.
- edição de imagensModificar a imagem com comandos de texto, por exemplo, substituindo elementos específicos ou ajustando o estilo.
Além disso, o UniPic suporta a execução em GPUs de consumo (por exemplo, RTX 4090) e fornece pesos de modelo de código aberto e licenças MIT para que os desenvolvedores possam usar e modificar livremente.
Essa resposta foi extraída do artigoSkyworkUniPic: um modelo de código aberto para compreensão e geração de imagens de processamento unificadoO