クロスモーダル特徴アライメントの実用的スキーム
MiniMind-Vは、次のような革新的なアプローチを用いて、視覚と言語の特徴アライメントの中核となる課題に取り組んでいます:
- ビジュアル・コーディング・オプション::
- CLIPの事前学習済みモデル(196トークン)を用いて視覚的特徴を直接抽出した。
- CLIPの強力なクロスモーダル意味空間の維持
- プロジェクション・レイヤーのデザイン::
- 専用機能投影モジュールが視覚と言語モダリティをつなぐ
- 画像トークンの次元を言語モデルの入力空間にマッピングする
- シンプルなリニアレイヤーによる効率的なアライメント
- トレーニング戦略の最適化::
- プレトレーニングフェーズでは、言語モデルの投影層と最終層のみを微調整する
- 微調整の段階で、より多くのパラメーターの凍結を徐々に解除していく
- コントラスト学習損失を利用したクロスモーダル理解の強化
実用的な提案:カスタムデータセットの場合、まず1-2エポックの間、投影層のみを訓練するためにビジュアルコーダーをフリーズさせ、損失が安定した後、より多くのパラメータのフリーズを解除することができます。このプロジェクトでは、完全なアライメント監視スクリプトを提供しており、wandbを通じて特徴空間分布の変化を観察することができる。
この答えは記事から得たものである。MiniMind-V:26Mパラメトリック視覚言語モデルの1時間トレーニングについて































