多模态训练显存控制方法论
MiniMind-V的视觉-语言联合训练需要特殊优化策略:
- 分阶段训练:
- 单独训练CLIP视觉编码器(freeze_lm=True)
- 固定视觉参数训练语言头(freeze_vision=True)
- 最后联合微调(降低learning_rate=1e-5)
- 关键技术:
- 梯度检查点技术(–gradient_checkpointing)
- 使用flash attention2替代标准attention
- 图像预处理时限制分辨率不超过224×224
- オプション
- 采用LoRA_V版本仅训练视觉适配器
- 使用渐进式训练,先64×64分辨率后提升
- 分布式训练拆分视觉/语言模块到不同GPU
该方案在3090显卡上可将32张图片batch的显存占用从38GB压缩到22GB,使训练成为可能。
この答えは記事から得たものである。MiniMind:ゼロから2時間のトレーニング 26MパラメータGPTオープンソースツールについて