O recurso de edição interativa em várias rodadas do modelo revoluciona as limitações da geração tradicional de imagens em um único disparo. Os usuários podem otimizar seu trabalho passo a passo por meio de comandos iterativos: primeiro, é gerada uma imagem de base e, em seguida, elementos específicos são ajustados com a adição de dicas comoAlterar o plano de fundo do dia para o crepúsculotalvez'Adicionar o logotipo da empresa no canto inferior direito'. O nível técnico adota o mecanismo de previsão de token autorregressivo, juntamente com a representação de espaço oculto do MoVQGAN, de modo que cada edição requer apenas computação local, o que economiza 70% recursos computacionais em comparação com a regeneração completa. Testes reais mostram que, para concluir a mesma complexidade da tarefa de design, a edição em várias rodadas reduz de 3 a 5 vezes a regeneração em comparação com a maneira tradicional, o que aumenta muito a eficiência do trabalho do designer.
Essa resposta foi extraída do artigoLumina-mGPT-2.0: um modelo autorregressivo de geração de imagens para lidar com várias tarefas de geração de imagensO