数据不足情况下的解决方案
在没有足够标注数据时的变通方法:
- 数据增强策略::
- 使用MegaPairs开源的2600万三元组作为基础数据集
- 应用图像变换(裁剪、调色)生成变体
- 通过CLIP反向生成图文描述对
- 迁移学习方案::
- 加载预训练的BGE-VL模型作为特征提取器
- 仅微调最后的投影层
- 采用对比学习损失函数
- 半监督学习::
- 用模型预测结果自动标注未标记数据
- 实施Noisy Student自训练策略
- 构建课程学习计划从易到难
创造性解决方案:1)利用DALL-E生成合成图像 2)爬取社交媒体带标签内容 3)设计众包标注流程。值得注意的是,当使用非Recap-Datacomp数据时需注意license兼容性(应符合CC BY 4.0要求)。VectorSpaceLab团队采用的异构KNN采样方法也值得借鉴。
This answer comes from the articleMegaPairs: a new multimodal vector embedding model from BGEThe