マルチモーダル訓練多様体の制御のための方法論
MiniMind-Vの視覚と言語の共同トレーニングには、特別な最適化戦略が必要です:
- 段階的トレーニング:
- CLIPビジュアルコーダーを個別にトレーニングする(freeze_lm=True)
- 言語ヘッドを学習するためのビジョン・パラメータを修正 (freeze_vision=True)
- 最終的な関節の微調整(learning_rate=1e-5を下げる)
- キーテクノロジー:
- 勾配チェックポイント法 (-gradient_checkpointing)
- 標準的な注意の代わりにフラッシュ注意2を使う
- 画像の前処理において、解像度を224×224以下に制限する。
- オプション
- LoRA_Vバージョンでビジョンアダプターのみを学習させる
- プログレッシブ・トレーニングを使用し、最初は64×64の解像度で、次に解像度を上げる
- ビジョン/言語モジュールを異なるGPUに分割する分散トレーニング
このソリューションは、3090グラフィックカード上で、32枚の画像バッチのビデオメモリフットプリントを38GBから22GBに圧縮し、トレーニングを可能にする。
この答えは記事から得たものである。MiniMind:ゼロから2時間のトレーニング 26MパラメータGPTオープンソースツールについて































