Uma solução prática para expressões faciais incompatíveis
Ao usar o X-Dyna para gerar animações, as incompatibilidades de expressões faciais geralmente são causadas por dois fatores principais: 1) a imagem estática de entrada tem uma diferença de expressão muito grande em relação ao quadro de vídeo principal; 2) o parâmetro best_frame não foi selecionado corretamente.
- Seleção precisa do best_frame:O número do quadro no vídeo do driver que é mais semelhante à expressão da imagem de origem é especificado com o parâmetro -best_frame ao executar o script. A similaridade pode ser avaliada usando a comparação quadro a quadro do VideoCapture do OpenCV.
- Pré-processa a imagem de entrada:Os pontos de características faciais da imagem de origem são detectados usando ferramentas como Face++ ou Dlib, e o quadro com a menor distância euclidiana no vídeo da unidade é filtrado como o best_frame.
- Habilite o módulo de controle local:Adicione o parâmetro -use_local_control para aprimorar a extração de recursos de regiões faciais, concentrando-se na retenção de microexpressões importantes, como olhos, sobrancelhas e boca.
- O método de fusão em dois estágios:Os pontos-chave do rosto são alinhados primeiro com o MTCNN, depois os parâmetros de expressão são migrados pelo modelo 3DMM e, por fim, a renderização geral é feita com o X-Dyna.
Uma solução avançada pode tentar treinar adaptadores personalizados: coletar dados de expressão de vários ângulos da pessoa-alvo e ajustar os pesos de atenção facial do módulo de adaptador dinâmico com base no LoRA.
Essa resposta foi extraída do artigoX-Dyna: Vídeo de referência de retrato estático Vídeo de geração de pose para fazer as fotos de Missy dançaremO































