低显存环境下的性能优化方案
针对6-8GB显存的消费级GPU,可通过以下方法突破硬件限制:
- 分级加载技术:启用
--t5_cpu
将文本编码器卸载到CPU,节省约1.5GB显存;结合--offload_model True
可再释放2GB - 时间轴切片:修改
config.json
中的num_frames
参数,将默认24帧缩减为12帧,显存需求降低35% - 混合精度计算:添加
--amp
参数启用自动混合精度,RTX系列显卡可获得1.8×加速
典型优化案例:
在RTX 3060(12GB)上生成720P视频时,使用组合参数:python generate.py --task t2v-1.3B --size 1280×720 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "场景描述" --t5_cpu --offload_model True --amp
该配置可使峰值显存从10.2GB降至6.8GB,同时保持85%的原始质量。若仍遇显存不足,可进一步降低--batch_size
值(默认4调整为2)
本答案来源于文章《Wan2.1:在消费级 GPU 上生成高质量视频》