MegaPairs是由VectorSpaceLab团队在GitHub上开源的一个多模态向量嵌入项目,专注于通过数据合成技术生成多模态嵌入模型。它的核心功能包括:
- 大规模数据集生成: 提供2600万+异构KNN三元组数据集,用于训练多模态模型
- BGE-VL系列模型: 包含CLIP和MLLM两个分支,共4个版本模型
- 零样本检索能力: 支持无需训练即可完成图像-文本到图像的跨模态检索
- Escalabilidade de código aberto: 模型采用MIT许可证,开发者可自由下载和微调
该项目的突破性在于BGE-VL-MLLM-S1模型在CIRCO基准测试中零样本性能提升8.1%,为多模态检索任务提供了更优方案。
Essa resposta foi extraída do artigoMegaPairs: um novo modelo de incorporação de vetor multimodal do BGEO