Soluções para movimentos não naturais
O ChatAnyone usa a tecnologia Hierarchical Motion Diffusion Modelling para otimizar especificamente a naturalidade dos movimentos humanos digitais. Veja a seguir as soluções específicas:
- Importar fotos de alta qualidadeRetratos: Certifique-se de que os retratos estejam nítidos, orientados para a frente e evite oclusões. Exemplos oficiais mostram que é mais fácil criar expressões e viradas de cabeça naturais em retratos de frente.
- Entrada de áudio otimizadaUse arquivos de áudio com pronúncia clara e velocidade de fala moderada. O sistema gera sincronização labial e microexpressões de acordo com o ritmo do áudio
- Controle da faixa de movimentoNa demonstração atual, o sistema é predefinido com uma faixa razoável de amplitude de movimento (por exemplo, rotação da cabeça de 15° a 30°) para evitar distorção exagerada.
- Correspondência de hardwareGPUs de alto desempenho (por exemplo, 4090) são necessárias para garantir a capacidade de computação para saídas suaves de 30FPS
Alternativa: se o código aberto estiver disponível, podemos tentar ajustar os parâmetros do modelo para otimizar estilos de ação específicos por meio de dados de treinamento. Nesse estágio, podemos observar o efeito de diferentes entradas de fala por meio do vídeo de demonstração oficial.
Essa resposta foi extraída do artigoChatAnyone: uma ferramenta para gerar vídeos de retratos humanos digitais de meio corpo a partir de fotografiasO































