Avanços na qualidade com a arquitetura de modelo grande
A escala de 20 bilhões de parâmetros usada na camada inferior do Gen Qwen Image é o principal suporte para suas vantagens técnicas. A escala de parâmetros determina diretamente a profundidade da compreensão semântica do modelo e a capacidade de geração de detalhes. Em termos de implementação técnica, o modelo adota uma arquitetura de transformador de difusão multimodal, que funde texto e recursos visuais por meio de um mecanismo de atenção multimodal.
O desempenho específico inclui: 1) a capacidade de gerar detalhes tão precisos quanto a textura do cabelo e as dobras do tecido; 2) suporte para saída de imagens de até 2048 x 2048 pixels; 3) a capacidade de entender semânticas complexas, como "o efeito Tyndall formado pela luz do sol que atravessa as folhas". Em comparação, o modelo Stable Diffusion de código aberto convencional tem apenas 1 bilhão de parâmetros, e a versão comercial do Midjourney V5 tem cerca de 5 bilhões de parâmetros. Esse salto no tamanho dos parâmetros permite que a Qwen-Image estabeleça uma nova referência tecnológica tanto em termos de realismo de imagem quanto de expressão artística.
Essa resposta foi extraída do artigoGen Qwen Image: gerador de imagens on-line gratuito para renderização precisa de textoO































