指代表达理解任务操作流程
VLM-R1特别擅长于指代表达理解(Referential Expression Comprehension, REC)任务。以下是具体使用方法:
fase de treinamento
- 下载所需数据集:包括COCO Train2014图像数据集和RefCOCO标注文件
- 配置训练参数:修改src/open-r1-multimodal目录中的训练脚本
- 启动训练:使用多GPU训练命令,示例:torchrun –nproc_per_node=8 …
estágio de inferência
- 进入eval目录:cd src/eval
- 运行测试脚本:python test_rec_r1.py –model_path …
- 提供输入:上传图片并输入自然语言问题,如”图中的蓝色汽车在哪里?”
输入输出示例
- importação:一张包含多个物体的图片 + 自然语言查询(如”找出画面右下角的红杯子”)
- exportações:目标物体的边界框坐标或位置描述
advertência
对于自定义数据,可以修改data_config/rec.yaml配置文件,添加自己的图片路径和标注文件。
Essa resposta foi extraída do artigoVLM-R1: um modelo de linguagem visual para localizar alvos de imagem por meio de linguagem naturalO