Técnica de reconstrução de perspectiva de vídeo baseada em modelo de difusão
O ReCamMaster, desenvolvido em conjunto pela Universidade de Zhejiang e pela equipe da Racer Technology, adota uma arquitetura avançada de modelo de difusão de texto para vídeo. A principal inovação tecnológica da ferramenta está na combinação do modelo Wan2.1 com o algoritmo de controle de trajetória da câmera para alcançar o avanço da geração de vídeos com várias visualizações a partir de uma única fonte de vídeo. A equipe otimizou especialmente o processamento da consistência espaço-temporal entre os quadros de vídeo, de modo que os novos vídeos de perspectiva gerados possam manter a coerência do movimento. Em termos de implementação técnica, o sistema primeiro executa a extração de recursos e a compreensão da cena em 3D no vídeo de entrada, depois renderiza novamente os pontos de vista de acordo com os parâmetros de rastreamento da câmera especificados pelo usuário e, por fim, gera um vídeo de vários ângulos com efeitos visuais profissionais.
Essa abordagem baseada no modelo de difusão é mais capaz de lidar com a oclusão em cenas complexas do que as técnicas tradicionais de visão computacional e gera conteúdo sensível além da imagem original por meio da aprendizagem profunda. A versão de código aberto do código da equipe já inclui suporte completo ao modelo Wan2.1, mas, devido a considerações comerciais, o modelo interno de maior precisão ainda não está totalmente aberto.
Essa resposta foi extraída do artigoReCamMaster: ferramenta de renderização para gerar vídeos com várias visualizações a partir de um único vídeoO































