提升零样本检索性能的关键方法
基于MegaPairs提升CIRCO基准mAP@5指标的具体方案:
- 模型选型:
- 优先选择BGE-VL-MLLM-S1(比传统方法提升8.1%)
- 对于计算资源受限场景可使用BGE-VL-base版本
- 输入优化:
- 文本指令遵循标准格式:”Retrieve the target image that…”
- 图像预处理保持RGB三通道
- 合并使用图像和文本作为联合查询条件
- 参数调优:
- 调整task_instruction提示模板
- 尝试不同的hidden_states层输出(默认使用-1层)
- 后处理技巧:
- 对相似度分数进行softmax归一化
- 设置阈值过滤低质量候选
进阶方案:当获得MegaPairs数据集后,可对模型进行微调:1)使用三元组数据训练 2)采用难例挖掘策略 3)在MMEB基准上验证调优效果。
本答案来源于文章《MegaPairs:BGE新推出的多模态向量嵌入模型》