Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O SkyworkUniPic é um modelo multimodal de código aberto desenvolvido pela SkyworkAI que se concentra na compreensão de imagens, imagens geradas por texto e edição de imagens. Ele integra três tarefas de linguagem visual usando uma única arquitetura de 150 milhões de parâmetros. Os usuários podem executar tarefas de geração e edição de imagens de 1024×1024 pixels em GPUs de consumo, como a RTX 4090. O UniPic tem bom desempenho em benchmarks como GenEval, DPG-Bench e outros, o que o torna adequado para desenvolvedores que exploram aplicativos de IA visual. O código do projeto e os pesos do modelo estão abertos no GitHub sob a licença MIT, que incentiva o uso e a modificação gratuitos.

 

Lista de funções

  • compreensão gráficaAnálise do conteúdo das imagens de entrada para responder a perguntas relevantes ou extrair informações.
  • Texto para imagemGera imagens de alta qualidade de 1024 x 1024 pixels com base em descrições de texto.
  • edição de imagensModificar a imagem com comandos de texto, por exemplo, substituindo elementos específicos ou ajustando o estilo.
  • Suporte para hardware de nível de consumidorExecuta com eficiência em GPUs, como a RTX 4090, sem a necessidade de equipamento especializado.
  • Ponderação de modelos de código abertoFornece modelos pré-treinados que os desenvolvedores podem baixar e personalizar diretamente.

Usando a Ajuda

Processo de instalação

A instalação e o uso do UniPic requerem um ambiente Python básico e suporte a GPU. A seguir estão as etapas detalhadas de instalação:

  1. armazém de clones::
    Abra um terminal e execute o seguinte comando para clonar o repositório UniPic:

    git clone https://github.com/SkyworkAI/UniPic
    cd UniPic
    
  2. Criação de um ambiente virtual::
    Crie um ambiente Python 3.10.14 usando o conda, garantindo o isolamento de dependências:

    conda create -n unipic python=3.10.14
    conda activate unipic
    
  3. Instalação de dependências::
    Instale as bibliotecas Python necessárias para seu projeto:

    pip install -r requirements.txt
    
  4. Download dos pesos do modelo::
    O UniPic fornece pesos de modelo pré-treinados, que precisam ser baixados do Hugging Face. Execute o seguinte comando:

    pip install -U "huggingface_hub[cli]"
    huggingface-cli download Skywork/Skywork-UniPic-1.5B --local-dir checkpoint --repo-type model
    
  5. Definição de variáveis de ambiente::
    Adiciona um caminho de projeto à execução do script:

    export PYTHONPATH=./:$PYTHONPATH
    

Função Fluxo de operação

O UniPic suporta três funções principais: compreensão de imagem, geração de texto para imagem e edição de imagem. Instruções operacionais detalhadas são fornecidas abaixo:

1. texto para imagem

O usuário pode gerar uma imagem de 1024 x 1024 pixels com uma descrição de texto. Por exemplo, gerar uma imagem de um golden retriever parado na grama de um parque:

  • procedimento::
    Execute os seguintes comandos para especificar o perfil do modelo, os caminhos de peso e os prompts de texto:

    python scripts/text2image.py configs/models/qwen2_5_1_5b_kl16_mar_h.py \
    --checkpoint checkpoint/pytorch_model.bin \
    --image_size 1024 \
    --prompt "A glossy-coated golden retriever stands on the park lawn beside a life-sized penguin statue." \
    --output output.jpg
    
  • advertência::
    • Atualmente, apenas 1024×1024 pixels são suportados para a geração de imagens.
    • Os avisos de texto precisam ser claros e específicos para uma melhor geração.
    • A imagem de saída é salva na pasta especificada output.jpg Documentação.

2. edição de imagens

O UniPic permite que o usuário modifique uma imagem existente com comandos de texto. Por exemplo, substituir estrelas em uma imagem por velas:

  • procedimento::
    Prepare uma imagem de entrada (por exemplo data/sample.png), execute o seguinte comando:

    python scripts/image_edit.py configs/models/qwen2_5_1_5b_kl16_mar_h.py \
    --checkpoint checkpoint/pytorch_model.bin \
    --image_size 1024 \
    --image data/sample.png \
    --prompt "Replace the stars with the candle." \
    --output output.jpg
    
  • advertência::
    • A imagem de entrada deve ter 1024 x 1024 pixels.
    • As instruções textuais precisam descrever claramente a modificação, como substituir, adicionar ou remover elementos.
    • A imagem editada é salva como output.jpg.

3. compreensão da imagem

O UniPic pode analisar o conteúdo da imagem e responder a perguntas relacionadas. Nenhum script autônomo de compreensão de imagem é fornecido atualmente no repositório, mas os desenvolvedores podem personalizar suas implementações com base nos pesos do modelo e na estrutura Qwen2.5.

  • sugestão de operação::
    • Use a biblioteca Transformers do Hugging Face para carregar o modelo.
    • Prepare imagens e perguntas e chame a interface de inferência do modelo para obter respostas.
    • Consulte a documentação da SkyworkAI ou os exemplos da comunidade para implementar recursos específicos.

Outras dicas úteis

  • Requisitos de hardwareGPUs NVIDIA RTX 4090 ou superior com pelo menos 24 GB de memória de vídeo são recomendadas.
  • Problemas de depuraçãoSe você encontrar um conflito de dependência, verifique a versão do Python e a compatibilidade do CUDA.
  • Suporte à comunidadeVisite a página de problemas do seu repositório do GitHub para ver as perguntas frequentes ou enviar novas perguntas.
  • Otimização de modelosOs desenvolvedores podem ajustar os pesos do modelo para atender a tarefas ou conjuntos de dados específicos.

cenário do aplicativo

  1. criação de conteúdo
    O UniPic é adequado para blogueiros, designers e outros criadores para gerar imagens de alta qualidade. Por exemplo, gerar imagens promocionais que correspondam ao estilo de uma marca ou criar automaticamente ilustrações com base no conteúdo de um artigo.
  2. Educação e pesquisa
    Os pesquisadores podem usar o UniPic para explorar os recursos da IA multimodal. Os alunos podem aprender técnicas de processamento e geração de imagens por meio de código-fonte aberto.
  3. Comércio eletrônico e publicidade
    Os comerciantes podem usar o UniPic para editar imagens de produtos, como alterar o plano de fundo ou adicionar elementos promocionais para melhorar o apelo visual.
  4. desenvolvimento de jogos
    Os desenvolvedores podem gerar cenários de jogos ou desenhos de conceitos de personagens para iterar rapidamente as ideias de design.

QA

  1. Quais resoluções de imagem são suportadas pelo UniPic?
    Atualmente, apenas 1024×1024 pixels são suportados para geração e edição de imagens.
  2. Preciso de uma GPU especializada para executar o UniPic?
    Não é necessário. GPUs de consumo (por exemplo, RTX 4090) serão executadas; recomenda-se 24 GB ou mais de memória de vídeo.
  3. Como faço para obter os pesos dos modelos?
    Download via Hugging Face, execute huggingface-cli download Skywork/Skywork-UniPic-1.5B Comando.
  4. O UniPic está disponível comercialmente?
    Sim. O UniPic está licenciado sob a licença MIT, que permite o uso comercial, a modificação e a distribuição.
  5. Qual é a qualidade da geração de imagens?
    O UniPic obteve 0,86 no GenEval e 85,5 no DPG-Bench, gerando uma qualidade melhor do que alguns dos modelos maiores.
0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo

pt_BRPortuguês do Brasil