R1フェーズでは、Gradient Rewarded Policy Optimisation (GRPO)アルゴリズムによる強化学習を用い、800万回の学習により、視覚と動詞のアライメント能力を徐々に習得させる。一方、教師付き微調整フェーズでは、Qwen2.5-VL-3B-Instructをベースモデルとして採用し、RefCOCOデータセットから12万件のアノテーションデータをインストラクションの微調整に使用する。
最初のラウンドでは72時間の強化学習により政策ネットワークを最適化し、2番目のラウンドでは48時間の教師あり微調整を行う。テストによると、このハイブリッドパラダイムにより、モデルはRefCOCOgテストセットで78.31 TP3Tの精度を達成し、純粋な教師あり学習と比較して12.6ポイント向上した。プロジェクトのドキュメントでは、開発者が完全な学習プロセスを再現できるよう、deepspeed zero3.json設定ファイルの詳細を提供しています。
この答えは記事から得たものである。VLM-R1:自然言語による画像ターゲットの位置決定のための視覚言語モデルについて































