MiniMind-Vを実行するには、環境設定→データ準備→モデルトレーニング→効果検証の4つのステップを体系的に行う必要がある:
環境設定
- 利用する
git clonePython≥3.9環境を推奨します。 - Tsinghuaのミラーソースから依存関係をインストールする:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple - CLIP Visual Coderをダウンロード
./model/vision_modelディレクトリ
データ準備
- 確立
./dataset約5GBのプレトレーニングデータをカタログ化し、ダウンロードする。 - 3つのJSONL形式のアノテーションファイル(事前トレーニング/単一画像の微調整/複数画像の微調整)と対応する画像を含めること。
- 画像はデフォルトで224×224の解像度にリサイズされます。
モデルトレーニング
典型的なプロセスは2段階からなる:
- 事前トレーニング走る
train_pretrain_vlm.pyCLIPを凍結し、投影層のみをトレーニングする(約1時間/エポック) - 微調整実施
train_sft_vlm.pyエンド・ツー・エンドのトレーニングのための言語モデルの凍結解除
効果テスト
2種類の認証がサポートされている:
- コマンドラインでのやりとり:
python eval_vlm.pyトレーニング用ウェイトを積む - ウェブインターフェース:
python web_demo_vlm.pyビジュアル・テストのローカル・サービスを開始
Key tip: ビデオメモリが足りない場合(<24GB)、LMConfig.pyのbatch_sizeパラメータを調整する必要があります。
この答えは記事から得たものである。MiniMind-V:26Mパラメトリック視覚言語モデルの1時間トレーニングについて































