FramePack通过两项关键技术实现低显存需求:
- 下一帧预测神经网络结构:将输入帧压缩至固定长度,使计算资源消耗与视频长度解耦。这种架构设计意味着无论生成1秒还是60秒视频,GPU显存占用都保持稳定
- 上下文压缩技术:采用特殊的attention机制优化,仅保留必要的时序信息。通过SageAttention/Flashattention等技术,有效降低显存占用达70%
具体实现上,开发者Lvmin Zhang基于Hunyuan视频模型改造,将模型参数控制在13亿规模。测试表明在RTX 3060(6GB)上即可生成1800帧(60秒@30fps)视频,相比传统视频扩散模型节省显存3-5倍。
This answer comes from the articleFramePack: 6G low graphics memory fast raw long video open source projectThe