MiniMind-V作为视觉语言模型支持三类核心场景:
- 跨模态检索: através de
eval_vlm.py
实现图片到文本的匹配搜索 - Geração de descrição da imagem:输入任意图片自动生成文字说明
- Perguntas e respostas visuais:结合CLIP模型理解图片内容并回答问题
Processo de implantação::
- 下载多模态组件:
git clone https://huggingface.co/jingyaogong/MiniMind2-V
- 获取CLIP模型到指定路径:
./model/vision_model
- 运行交互测试:
- ativar (um plano)
python eval_vlm.py --load 1
- 同时输入图片路径和文本指令
- ativar (um plano)
- 接入API服务:
- 改造
serve_openai_api.py
支持multipart/form-data
- 改造
关键技术点在于视觉编码器与语言模型的embedding空间对齐。
Essa resposta foi extraída do artigoMiniMind: 2 horas de treinamento do zero com a ferramenta de código aberto GPT de parâmetros 26MO