O Qwen-Image é um modelo de difusão multimodal baseado em parâmetros 20B (MMDiT) desenvolvido pela equipe do Qwen. A principal força do modelo é sua capacidade de gerar imagens de alta qualidade e renderizar com precisão textos complexos, com uma especialização especial em lidar com as necessidades tipográficas do chinês e do inglês. A arquitetura técnica suporta a conversão de vários estilos de arte, incluindo realismo, animação e pôsteres em HD, bem como o processamento em vários idiomas.
O modelo é licenciado sob a licença aberta Apache 2.0 e se integra perfeitamente à ComfyUI para cenários profissionais, como design de anúncios, criação de arte etc. A escala de parâmetros de 20B o torna significativamente melhor do que os modelos de tamanho pequeno e médio em termos de representação de detalhes e compreensão semântica.
Essa resposta foi extraída do artigoQwen-Image: uma ferramenta de IA para gerar imagens de alta fidelidade com renderização precisa de textoO