MiniMind-Vはマルチグラフ対話シナリオをサポートしているが、実用的なアプリケーションでは、以下の技術的な詳細に特に注意が必要である:
データ構造仕様
- マークアップ形式マルチグラフ・データには
sft_vlm_data_multi.jsonl各記事には2~4枚の写真とそれに対応する対話文が掲載されている。 - ポジションコードテキストの入力は196文字までに制限されています。
@@@プレースホルダーが各画像の位置を示す - サンプルバランスオーバーフィッティングを避けるため、単一データと複数データの比率を20:1以上に保つことが推奨される。
モデル・トレーニングのテクニック
- プログレッシブ・トレーニング複数画像の微調整を導入する前の単一画像の事前トレーニング(2段階トレーニング)
- アテンション最適化LMConfig.py の調整
cross_attention_layersパラメータによるクロスグラフ理解の強化 - バッチ構造複数画像のシナリオでは、メモリのオーバーフローを防ぐため、batch_size ≤ 2 を推奨する。
効果を高める戦略
- フィーチャー・フュージョン変更可能
projection.pyMLPのMLP層は高度な特徴相互作用を実装している - 再処理出力テ キ ス ト のルールに基づ く チ ェ ッ ク (画像 イ ンデ ッ ク ス チ ェ ッ ク 等)。
- 指標の評価:: Inter-Relationship Accuracy (IRA)などの専用メトリクスのカスタマイズを提案。
経験的なテストによると、現在のバージョンは3つ以上の画像入力に対して応答品質が著しく低下する。産業グレードのアプリケーションでは、公式の重みに基づいたビジネスデータでの段階的なトレーニングが推奨される。
この答えは記事から得たものである。MiniMind-V:26Mパラメトリック視覚言語モデルの1時間トレーニングについて































