运行MiniMind-V需要按照环境配置→数据准备→模型训练→效果测试四个步骤进行系统化操作:
環境設定
- 利用する
git clone
下载项目代码,建议Python≥3.9环境 - 通过清华镜像源安装依赖:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
- 下载CLIP视觉编码器到
./model/vision_model
ディレクトリ
データ準備
- 確立
./dataset
目录并下载约5GB的预训练数据 - 需包含三种JSONL格式标注文件(预训练/单图微调/多图微调)和对应图片
- 图像默认会resize到224×224分辨率
モデルトレーニング
典型流程包含两个阶段:
- 事前トレーニング走る
train_pretrain_vlm.py
冻结CLIP只训练投影层(约1小时/epoch) - 微調整実施
train_sft_vlm.py
解冻语言模型进行端到端训练
効果テスト
支持两种验证方式:
- 命令行交互:
python eval_vlm.py
加载训练权重 - Web界面:
python web_demo_vlm.py
启动本地服务进行可视化测试
关键提示:若显存不足(<24GB),需在LMConfig.py中调小batch_size参数。
この答えは記事から得たものである。MiniMind-V:26Mパラメトリック視覚言語モデルの1時間トレーニングについて