Além das funções geradoras, o modelo oferece recursos abrangentes de compreensão de imagens, incluindo tarefas de visão computacional, como detecção de alvos, segmentação semântica, estimativa de profundidade e super-resolução. Na dimensão de edição, os próximos recursos suportam operações como adição e exclusão de objetos, modificação de texto e aprimoramento de detalhes.
Seu recurso especial é a conversão de estilo, como a substituição de um fundo de foto por um estilo de pixel art. O módulo de compreensão de imagens analisa as relações de localização de objetos e fornece uma base semântica para as operações de edição. Essas funções são implementadas por meio de uma arquitetura multimodal unificada, evitando o problema de acúmulo de erros de vários modelos em série.
Essa resposta foi extraída do artigoQwen-Image: uma ferramenta de IA para gerar imagens de alta fidelidade com renderização precisa de textoO