提升零样本检索性能的关键方法
基于MegaPairs提升CIRCO基准mAP@5指标的具体方案:
- Model Selection::
- 优先选择BGE-VL-MLLM-S1(比传统方法提升8.1%)
- 对于计算资源受限场景可使用BGE-VL-base版本
- Input Optimization::
- 文本指令遵循标准格式:”Retrieve the target image that…”
- 图像预处理保持RGB三通道
- 合并使用图像和文本作为联合查询条件
- parameter tuning::
- 调整task_instruction提示模板
- 尝试不同的hidden_states层输出(默认使用-1层)
- Post-processing techniques::
- 对相似度分数进行softmax归一化
- 设置阈值过滤低质量候选
advanced program:当获得MegaPairs数据集后,可对模型进行微调:1)使用三元组数据训练 2)采用难例挖掘策略 3)在MMEB基准上验证调优效果。
This answer comes from the articleMegaPairs: a new multimodal vector embedding model from BGEThe