Verschreibung
针对低显存设备的内存限制问题,Nunchaku通过4位量化技术提供以下具体解决方法:
- 使用SVDQuant量化技术:该技术将模型权重和激活值压缩至4位,相比传统16位模型可降低3.6倍内存占用。安装时需选择对应PyTorch版本的wheel文件(如torch2.6+cu12.2)。
- 启用4位文本编码器:在ComfyUI工作流中设置
use_4bit_t5=True
参数,量化T5文本编码器,进一步节省文本处理阶段的内存消耗。 - 模型分片加载:通过LoRA Loader节点按需加载模块化组件(如将VAE、clip_l等模型分别存放在不同目录),避免一次性全模型加载。
执行示例:
1. 安装Nunchaku时指定NUNCHAKU_INSTALL_MODE=ALL
确保兼容性
2. der Betriebhuggingface-cli download
命令分批次下载模型组件
3. 在GPU为4GB的设备上测试表明,FLUX.1-dev模型推理时显存占用可从14GB降至3.8GB
Diese Antwort stammt aus dem ArtikelNunchaku: ein Inferenzwerkzeug zur effizienten Ausführung von FLUX.1 und SANA 4-Bit quantisierten ModellenDie