O Open-Sora oferece três otimizações principais para melhorar a qualidade da geração:
- método descritivo detalhadoSugestão: Sugira descritores específicos e vívidos, por exemplo, otimize "mar" para "mar azul-escuro em uma tempestade, ondas brancas batendo contra recifes negros, relâmpagos brilhando em meio a nuvens escuras".
- Otimização assistida por GPT-4oO sistema tem uma interface integrada para o GPT-4o, que pode ser configurada por
OPENAI_API_KEY
Ative a otimização de palavras com sugestão automática após a publicação:export OPENAI_API_KEY=sk-xxxx torchrun ... --refine-prompt True
- Ajuste dinâmico de pontuação: através de
--motion-score
Os parâmetros (intervalo de 1 a 7) controlam o grau de dinamismo na tela, por exemplo, uma configuração de 7 produz um efeito de movimento mais dramático.
Outras sugestões de otimização incluem:
- O processo de texto-para-imagem-para-vídeo geralmente é de melhor qualidade do que o texto-para-vídeo direto
- Para cenas complexas, recomenda-se gerar uma versão 256p para verificar o efeito antes de gerar a versão HD.
- fazer uso de
--offload True
parâmetro para ativar a otimização da memória quando a memória gráfica estiver baixa
Essa resposta foi extraída do artigoOpen Sora: uma ferramenta de geração de vídeo de código aberto para otimizar a consistência facialO