海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

VLM-R1采用强化学习与传统微调结合的混合训练范式

2025-09-05 1.6 K

该项目的核心技术创新在于构建了R1+SFT的混合训练框架。R1阶段通过梯度奖励策略优化(GRPO)算法进行强化学习,使模型在800万次交互训练中逐步掌握视觉-语言对齐能力。监督微调阶段则采用Qwen2.5-VL-3B-Instruct作为基座模型,使用RefCOCO数据集的12万条标注数据进行指令微调。

训练流程设置双阶段验证:首轮通过72小时强化学习优化策略网络,第二轮进行48小时的有监督微调。测试表明,这种混合范式使模型在RefCOCOg测试集上的准确率达到78.3%,较纯监督学习提升12.6个百分点。项目文档详细提供了deepspeed zero3.json配置文件,支持开发者复现完整的训练过程。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文