Os requisitos de computação de alto desempenho garantem a qualidade da geração
A estrutura foi desenvolvida com base no PyTorch 2.1+, com os seguintes requisitos obrigatórios: 1) placa de vídeo com arquitetura NVIDIA Turing ou superior; 2) ambiente de driver CUDA 11.8; 3) capacidade de memória gráfica ≥ 16 GB. Os testes mostram que, ao gerar uma cena 4D com resolução de 1080p, o RTX 4090 leva cerca de 3 minutos/quadro, enquanto o RTX 2080 sofre de estouro de memória gráfica. A equipe do projeto fornece uma imagem do Docker para simplificar a implantação, contendo um kernel otimizado do FlashAttention pré-compilado. Para cenários com restrições de recursos de computação, recomenda-se usar o subconjunto 480p do CamVid-30K para prototipagem.
Essa resposta foi extraída do artigoGenXD: estrutura de código aberto para gerar vídeos de cenas arbitrárias em 3D e 4DO




























