MiniMind-V作为视觉语言模型支持三类核心场景:
- 跨模态检索: By
eval_vlm.py
实现图片到文本的匹配搜索 - Image description generation:输入任意图片自动生成文字说明
- Visual Q&A:结合CLIP模型理解图片内容并回答问题
Deployment process::
- 下载多模态组件:
git clone https://huggingface.co/jingyaogong/MiniMind2-V
- 获取CLIP模型到指定路径:
./model/vision_model
- 运行交互测试:
- activate (a plan)
python eval_vlm.py --load 1
- 同时输入图片路径和文本指令
- activate (a plan)
- 接入API服务:
- 改造
serve_openai_api.py
支持multipart/form-data
- 改造
关键技术点在于视觉编码器与语言模型的embedding空间对齐。
This answer comes from the articleMiniMind: 2 hours from scratch training 26M parameters GPT open source toolsThe