该项目的核心技术创新在于构建了R1+SFT的混合训练框架。R1阶段通过梯度奖励策略优化(GRPO)算法进行强化学习,使模型在800万次交互训练中逐步掌握视觉-语言对齐能力。监督微调阶段则采用Qwen2.5-VL-3B-Instruct作为基座模型,使用RefCOCO数据集的12万条标注数据进行指令微调。
训练流程设置双阶段验证:首轮通过72小时强化学习优化策略网络,第二轮进行48小时的有监督微调。测试表明,这种混合范式使模型在RefCOCOg测试集上的准确率达到78.3%,较纯监督学习提升12.6个百分点。项目文档详细提供了deepspeed zero3.json配置文件,支持开发者复现完整的训练过程。
本答案来源于文章《VLM-R1:通过自然语言定位图像目标的视觉语言模型》