CamVid-30K redefine o padrão de referência para pesquisa de cenas dinâmicas
O conjunto de dados contém três subconjuntos principais, incluindo VIPSeg e OpenVid, que registram completamente elementos quadridimensionais, como a posição da câmera, a trajetória do movimento do objeto etc., e a escala de dados atinge o nível de 30 TB. Seus recursos são: 1) os parâmetros precisos da câmera armazenados no formato COLMAP permitem a reconstrução de movimento em nível milimétrico; 2) a anotação contínua do fluxo óptico entre quadros permite a verificação da consistência do tempo; e 3) o subconjunto WebVid-10M oferece materiais de cena diversificados. Experimentalmente, foi demonstrado que o modelo treinado com esse conjunto de dados melhora a métrica PSNR em 12,7% na tarefa de reconstrução de movimento NeRF, que se tornou uma plataforma de benchmarking comumente usada em trabalhos acadêmicos. O conjunto de dados segue o protocolo CC-BY-NC e foi integrado ao ecossistema PyTorch.
Essa resposta foi extraída do artigoGenXD: estrutura de código aberto para gerar vídeos de cenas arbitrárias em 3D e 4DO































