部署BGE-VL-MLLM-S1主要分为四个步骤:
- Preparação ambiental: 创建Python3.10虚拟环境,安装transformers==4.41.2和sentencepiece
- Carregamento do modelo:
from transformers import AutoModel, AutoProcessor
model = AutoModel.from_pretrained('BAAI/BGE-VL-MLLM-S1', trust_remote_code=True)
processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True) - processamento de entrada: 使用processor同时处理查询图像和文本,注意设置q_or_c参数区分查询/候选数据
- Cálculo de similaridade:
query_embs = model(**query_inputs).hidden_states[-1][:, -1, :]
scores = torch.matmul(query_embs, candi_embs.T)
关键细节:必须使用GPU加速(需16GB+显存),处理文本时要包含任务指令模板,相似度计算前需对向量做L2归一化。
Essa resposta foi extraída do artigoMegaPairs: um novo modelo de incorporação de vetor multimodal do BGEO