提升零样本检索性能的关键方法
基于MegaPairs提升CIRCO基准mAP@5指标的具体方案:
- モデルの選択::
- 优先选择BGE-VL-MLLM-S1(比传统方法提升8.1%)
- 对于计算资源受限场景可使用BGE-VL-base版本
- 入力の最適化::
- 文本指令遵循标准格式:”Retrieve the target image that…”
- 图像预处理保持RGB三通道
- 合并使用图像和文本作为联合查询条件
- パラメーター・チューニング::
- 调整task_instruction提示模板
- 尝试不同的hidden_states层输出(默认使用-1层)
- 再処理技術::
- 对相似度分数进行softmax归一化
- 设置阈值过滤低质量候选
上級プログラム:当获得MegaPairs数据集后,可对模型进行微调:1)使用三元组数据训练 2)采用难例挖掘策略 3)在MMEB基准上验证调优效果。
この答えは記事から得たものである。メガペア:BGEによる新しいマルチモーダルベクトル埋め込みモデルについて