Ao gerar imagens com o Lumina-mGPT-2.0, os seguintes parâmetros-chave afetam diretamente a saída:
- parâmetro básico::
- -prompt: texto de descrição de entrada (suporte para chinês e inglês, recomendamos o inglês para obter melhores resultados)
- -width/-height: define a resolução de saída (até 768px)
- Parâmetros de controle de qualidade::
- -cfg: controla a correlação texto-imagem (padrão 4,0, valores maiores correspondem estritamente ao texto)
- -top_k: afeta a geração de diversidade (padrão 4096, valores menores produzem resultados mais conservadores)
- -temperature: ajusta a aleatoriedade (1,0 é equilibrado, >1,0 aumenta a criatividade)
- Parâmetros de otimização de desempenho::
- -speculative_jacobi: ativar a decodificação especulativa reduz o tempo de geração do 50%
- -quant: habilita a quantificação para reduzir o espaço ocupado pela memória de vídeo do 60%.
Cenário típico de aplicação Recomendações de condicionamento:
1. quando a correspondência exata de texto for necessária: aumente -cfg para 6-8, diminua a temperatura para 0,7.
2) Quando a difusão criativa for necessária: defina a temperatura=1,3, top_k=2048
3. em caso de limitações de hardware: o parâmetro -quant deve ser adicionado para reduzir a resolução para 512px.
Esses parâmetros podem ser usados em combinação para obter um controle preciso, e é recomendável começar com os valores padrão e ajustá-los gradualmente.
Essa resposta foi extraída do artigoLumina-mGPT-2.0: um modelo autorregressivo de geração de imagens para lidar com várias tarefas de geração de imagensO