该模型在多模态理解场景展现突出优势:在电商导购领域,可实现”找出商品详情页中的保修信息”等复杂指令;在自动驾驶中,能准确响应”导航至左侧第三辆车位”这样的空间指令。技术白皮书显示,在真实道路场景测试中,模型对车辆目标的指代识别准确率达到91.2%。
项目团队提供了领域适配方案,开发者可通过修改data_config/rec.yaml配置文件接入自定义数据。典型应用案例包括智能家居中的”关闭画面右上角的台灯”语音控制,以及工业质检中的”标记钢板表面划痕区域”等场景,模型经过领域微调后任务完成率可提升至89%以上。
本答案来源于文章《VLM-R1:通过自然语言定位图像目标的视觉语言模型》