当前位置：首页 » AI答疑

VLM-R1采用强化学习与传统微调结合的混合训练范式

2025-09-05

1.6 K

该项目的核心技术创新在于构建了R1+SFT的混合训练框架。R1阶段通过梯度奖励策略优化(GRPO)算法进行强化学习，使模型在800万次交互训练中逐步掌握视觉-语言对齐能力。监督微调阶段则采用Qwen2.5-VL-3B-Instruct作为基座模型，使用RefCOCO数据集的12万条标注数据进行指令微调。

训练流程设置双阶段验证：首轮通过72小时强化学习优化策略网络，第二轮进行48小时的有监督微调。测试表明，这种混合范式使模型在RefCOCOg测试集上的准确率达到78.3%，较纯监督学习提升12.6个百分点。项目文档详细提供了deepspeed zero3.json配置文件，支持开发者复现完整的训练过程。

本答案来源于文章《VLM-R1：通过自然语言定位图像目标的视觉语言模型》

未经允许不得转载：AI生产力工具 » VLM-R1采用强化学习与传统微调结合的混合训练范式

VLM-R1采用强化学习与传统微调结合的混合训练范式

相关文章

相关推荐

找不到AI工具？在这试试！

热门AI工具

最新发布

最新AI工具

VLM-R1采用强化学习与传统微调结合的混合训练范式

相关文章

相关推荐

找不到AI工具？在这试试！

热门AI工具

最新发布

最新AI工具

快速查询站内AI工具