シナリオベースの効果調整ソリューション
さまざまなアプリケーションシナリオに対応するために、以下の最適化戦略を採用することができる:
- シーンを描いた1枚のダイアグラム::
- sft_vlm_data.jsonlの画像に記述されるサンプルの割合を増やす。
- 発電の多様性を制御するための温度パラメータの調整
- プロンプトに「この画像を詳しく説明してください」を含める。
- Q&Aシナリオ::
- ドメイン固有のQAデータを収集し、マイクロチューニングセットに追加する。
- コンテキストを拡張するためにLMConfig.pyのmax_seq_lenパラメータを変更する。
- フレッシュショット・プロンプトの使用例
- 多グラフ推論シナリオ::
- sft_vlm_data_multi.jsonl データ量の増加
- ビジュアル・トークンの位置埋め込みを調整する
- 入力に画像順序の明確な表示を追加
一般的な最適化の提案: 1) 同じデータでのトレーニングエポックを増やす 2) dim=768の中規模コンフィギュレーションを試す 3) 生成品質を向上させるためにビームサーチを使う。プロジェクトweb_demo_vlm.pyには、最適化の効果をリアルタイムでテストするための効果評価ツールが組み込まれています。
この答えは記事から得たものである。MiniMind-V:26Mパラメトリック視覚言語モデルの1時間トレーニングについて