O Qwen-Image-Edit é uma ferramenta inovadora de edição de imagens de IA desenvolvida pela equipe do Alibaba Tongyi Qianqian. A tecnologia central da ferramenta é baseada no modelo Qwen-Image com 20 bilhões de parâmetros, uma escala que tem uma vantagem significativa no campo do processamento de imagens de IA. A arquitetura do modelo de 20 bilhões de parâmetros proporciona ao Qwen-Image-Edit recursos poderosos de compreensão e geração de imagens, permitindo que ele se destaque em tarefas de edição de imagens finas.
O modelo usa um caminho de tecnologia dupla de compreensão semântica visual e controle de aparência visual. O Visual Semantic Understanding permite interpretar com precisão os comandos avançados de edição do usuário, como a transformação do estilo geral, enquanto o Visual Appearance Control garante a precisão de modificações locais sutis, como a remoção de fios de cabelo. Essa arquitetura de tecnologia dupla equilibra com eficiência as necessidades conflitantes de realização criativa e manutenção de detalhes.
A contagem de 20 bilhões de parâmetros do modelo não apenas garante a capacidade de lidar com tarefas complexas, mas também fornece a base para o suporte a comandos bilíngues em chinês e inglês. O tamanho dos parâmetros também afeta diretamente a capacidade de generalização e a precisão de processamento da ferramenta, permitindo que ela se adapte a uma ampla gama de necessidades de edição de imagens.
Essa resposta foi extraída do artigoQwen-Image-Edit: modelo de IA para edição de imagens com base em comandos textuaisO