VLM-R1是Om AI Lab基于DeepSeek R1方法开发的多模态AI模型,核心能力是将自然语言指令与视觉内容精准关联。该项目创新性地融合Qwen2.5-VL模型的架构优势,采用强化学习(R1)和监督微调(SFT)双重优化策略,使模型在指代表达理解(REC)任务上表现出色。典型案例包括解析”图中红色杯子在哪里”这类指令,并能以边界框或坐标形式准确定位目标物体。
技术实现上,项目采用GRPO强化学习算法优化模型参数,配合bfloat16混合精度训练提升计算效率。开源社区提供COCO和RefCOCO标准数据集支持,包括34万张训练图片和12万条指代标注,确保模型具备优秀的泛化能力。项目在GitHub开源3个月内即获得近2000星标,验证了其技术方案的领先性。
本答案来源于文章《VLM-R1:通过自然语言定位图像目标的视觉语言模型》