Estratégia de ajuste de parâmetros
condicionamento do núcleo--cfg
O parâmetro controla o alinhamento entre texto e imagem; quanto maior o valor, mais rigorosamente o modelo segue as palavras-chave. O valor inicial recomendado oficialmente é 4,0, que pode ser aumentado gradualmente até 7,0 para testar o efeito.
Dicas de engenharia de palavras
- Uso de descrições em inglês: embora haja suporte ao chinês, os dados de treinamento estão em inglês.
- Adicione modificadores de detalhes: por exemplo, descritores de qualidade como "4K Ultra HD"/"Fotografia profissional" etc.
- Expressão estruturada: organize os prompts no formato "assunto + ambiente + estilo".
Programa de otimização de acompanhamento
- Edição em várias rodadas: por
generate_examples
Correção passo a passo do script de edição em - Ajuste fino do tema: usando o guia TRAIN.md para carregar dados específicos do domínio para treinamento
- Controle híbrido: ajuste preciso de recursos em conjunto com a função de controle espacial latente do MoVQGAN
Essa resposta foi extraída do artigoLumina-mGPT-2.0: um modelo autorregressivo de geração de imagens para lidar com várias tarefas de geração de imagensO