海外からのアクセス：www.kdjingpai.com

Ctrl + D このサイトをブックマークする

現在の場所図頭 " AIアンサー

多グラフ対話トレーニングにMiniMind-Vを使用する際の技術的な留意点は？

2025-08-25

1.2 K

MiniMind-Vはマルチグラフ対話シナリオをサポートしているが、実用的なアプリケーションでは、以下の技術的な詳細に特に注意が必要である：

データ構造仕様

マークアップ形式マルチグラフ・データにはsft_vlm_data_multi.jsonl各記事には2～4枚の写真とそれに対応する対話文が掲載されている。
ポジションコードテキストの入力は196文字までに制限されています。@@@プレースホルダーが各画像の位置を示す
サンプルバランスオーバーフィッティングを避けるため、単一データと複数データの比率を20:1以上に保つことが推奨される。

モデル・トレーニングのテクニック

プログレッシブ・トレーニング複数画像の微調整を導入する前の単一画像の事前トレーニング（2段階トレーニング）
アテンション最適化LMConfig.py の調整cross_attention_layersパラメータによるクロスグラフ理解の強化
バッチ構造複数画像のシナリオでは、メモリのオーバーフローを防ぐため、batch_size ≤ 2 を推奨する。

効果を高める戦略

フィーチャー・フュージョン変更可能projection.pyMLPのMLP層は高度な特徴相互作用を実装している
再処理出力テキストのルールに基づくチェック（画像インデックスチェック等）。
指標の評価:: Inter-Relationship Accuracy (IRA)などの専用メトリクスのカスタマイズを提案。

経験的なテストによると、現在のバージョンは3つ以上の画像入力に対して応答品質が著しく低下する。産業グレードのアプリケーションでは、公式の重みに基づいたビジネスデータでの段階的なトレーニングが推奨される。

この答えは記事から得たものである。MiniMind-V：26Mパラメトリック視覚言語モデルの1時間トレーニングについて

関連記事

無断転載を禁じます：AI生産性ツール " 多グラフ対話トレーニングにMiniMind-Vを使用する際の技術的な留意点は？

おすすめ