O FramePack atinge baixos requisitos de memória gráfica por meio de duas tecnologias principais:
- Estrutura da rede neural de previsão do próximo quadroA compactação dos quadros de entrada em um comprimento fixo desacopla o consumo de recursos de computação do comprimento do vídeo. Esse projeto arquitetônico significa que o espaço de memória da GPU permanece estável, independentemente de ser gerado um vídeo de 1 ou 60 segundos.
- tecnologia sensível ao contextoA otimização é baseada em um mecanismo de atenção especial, que retém apenas as informações de tempo necessárias. Por meio do SageAttention/Flashattention e de outras técnicas, reduz efetivamente o uso da memória em até 70%.
Em termos de implementação, o desenvolvedor Lvmin Zhang modificou o modelo com base no modelo de vídeo Hunyuan, controlando os parâmetros do modelo em uma escala de 1,3 bilhão. Os testes mostram que 1800 quadros (60 segundos a 30 fps) de vídeo podem ser gerados em um RTX 3060 (6 GB), o que economiza de 3 a 5 vezes a memória de vídeo em comparação com os modelos tradicionais de difusão de vídeo.
Essa resposta foi extraída do artigoFramePack: memória gráfica baixa de 6G, crescimento rápido do projeto de código aberto de vídeo longoO































