prescrição
O Diffuman4D resolve esse problema de forma eficaz, combinando o modelo de difusão espaço-temporal e a tecnologia 4D Gaussian Splash (4DGS). A operação específica é dividida em três etapas: primeiro, usando a tecnologia de codificação condicional Skeleton-Plücker para aprimorar a consistência espaço-temporal, a entrada de vídeo com pontos de vista esparsos (pelo menos 2), por meio do modelo de pré-treinamento para gerar um vídeo de alta definição consistente com várias visualizações (1024p); segundo, usando o algoritmo de otimização LongVolcap para reconstruir o 4DGS, o vídeo gerado e a entrada original para construir o modelo 4D de alta fidelidade. O modelo 4D de alta fidelidade é construído pela combinação do vídeo gerado com as entradas originais; por fim, a visualização livre é obtida por um mecanismo de renderização em tempo real.
Etapas de implementação
- Prepare pelo menos dois vídeos com resolução de 720p ou superior; recomenda-se usar fundos limpos
- Extrair dados de esqueleto usando MediaPipe/OpenPose e salvar no formato JSON
- Execute o script generate_views.py para gerar vídeos com várias visualizações
- Reconstrução do modelo 4DGS por meio do reconstruct_4dgs.py
advertência
Recomenda-se a placa de vídeo NVIDIA RTX (8 GB de VRAM ou mais). Recomenda-se que a duração do vídeo de entrada seja de 10 a 30 segundos; dados de esqueleto mais precisos são necessários para cenas de ação complexas.
Essa resposta foi extraída do artigoDiffuman4D: Geração de imagens 4D de alta fidelidade do corpo humano a partir de vídeos esparsosO































