资源受限环境下的调优策略
针对 16GB 以下内存的设备,推荐以下优化组合:
- モデルの選択
- 优先使用 8B 版本(需修改
inference.py
正鵠を得る--model
(パラメータ) - 启用 8-bit 量化:安装
bitsandbytes
包后添加--load_in_8bit
パラメトリック
- 优先使用 8B 版本(需修改
- 计算加速
- 强制使用 Flash-Attention(安装时指定
--no-build-isolation
) - 限制推理批处理大小(设置
--batch_size 1
)
- 强制使用 Flash-Attention(安装时指定
- メモリ管理
- 启用梯度检查点:在训练脚本中添加
gradient_checkpointing=True
- 使用混合精度训练:配置文件设置
fp16: true
- 启用梯度检查点:在训练脚本中添加
- 緊急プログラム:当出现 OOM 错误时
- 尝试释放缓存:
torch.cuda.empty_cache()
- 降低图像分辨率(修改预处理代码中的 resize 参数)
- 尝试释放缓存:
リアルタイムデータ:经过优化后,GTX 1060 显卡也能流畅运行基础推理任务。
この答えは記事から得たものである。MM-EUREKA:視覚的推論を探求するマルチモーダル強化学習ツールについて