针对显存有限的消费级GPU(如RTX 3090/4090),可采用三级优化策略:
基础优化:
- 强制使用
flux-dev-fp8
模型,显存需求从24GB降至16GB - 设置生成分辨率为512×512或更低
- 减少扩散步数
--num_steps
至25-30步
高级优化:
- 启用
--offload
参数将部分计算卸载到CPU - 使用
--enable_xformers
激活内存高效注意力机制 - 设置
torch.backends.cuda.enable_flash_sdp(True)
启用FlashAttention
系统级优化:
- 清理GPU缓存:
torch.cuda.empty_cache()
- 使用梯度检查点技术(训练时)
- 启用混合精度训练(FP16/FP8)
本答案来源于文章《UNO:支持单主体和多主体定制化图像生成工具(适合电商配图)》