海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする
現在の場所図頭 " AIアンサー

VLM-R1は、強化学習と従来の微調整を組み合わせたハイブリッド学習パラダイムを採用している。

2025-09-05 1.8 K

R1フェーズでは、Gradient Rewarded Policy Optimisation (GRPO)アルゴリズムによる強化学習を用い、800万回の学習により、視覚と動詞のアライメント能力を徐々に習得させる。一方、教師付き微調整フェーズでは、Qwen2.5-VL-3B-Instructをベースモデルとして採用し、RefCOCOデータセットから12万件のアノテーションデータをインストラクションの微調整に使用する。

最初のラウンドでは72時間の強化学習により政策ネットワークを最適化し、2番目のラウンドでは48時間の教師あり微調整を行う。テストによると、このハイブリッドパラダイムにより、モデルはRefCOCOgテストセットで78.31 TP3Tの精度を達成し、純粋な教師あり学習と比較して12.6ポイント向上した。プロジェクトのドキュメントでは、開発者が完全な学習プロセスを再現できるよう、deepspeed zero3.json設定ファイルの詳細を提供しています。

おすすめ

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

トップに戻る