Análise técnico-econômica da configuração de hardware
A arquitetura técnica do DiffPortrait360 tem requisitos claros de hardware: uma GPU NVIDIA mínima com 30 GB de memória de vídeo (por exemplo, RTX 3090) e uma placa profissional com 80 GB de memória de vídeo (por exemplo, A6000) são recomendadas. Essa configuração decorre de três recursos técnicos: 1) o ControlNet requer 12 GB de memória de vídeo básica; 2) o processo de modelagem NeRF consome de 18 a 22 GB de memória de vídeo; e 3) o mecanismo de atenção cruzada do Dual Appearance Module requer buffers computacionais reservados.
Os dados do mundo real mostram que a geração de uma sequência de 32 quadros em 360 graus levou cerca de 3,2 minutos no A6000, e a mesma tarefa levou 7,5 minutos em um RTX 4090 de consumo devido à troca de memória de vídeo. Notavelmente, a equipe otimizou operadores específicos para o CUDA 12.2, o que pode melhorar a velocidade de inferência em 191 TP3T em comparação com a versão 11.7 do CUDA. Para usuários de PMEs, recomenda-se uma solução de computação em nuvem, com instâncias AWS g5.2xlarge que atendem aos requisitos básicos a um custo por hora de cerca de US$ 1,08.
Essa resposta foi extraída do artigoDiffPortrait360: gere visualizações de cabeça em 360 graus a partir de um único retratoO