海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする
現在の場所図頭 " AIアンサー

WebAgentのための強化学習最適化フレームワークが、モデルタスクの汎化能力を大幅に向上させる

2025-08-22 636
直接リンクモバイルビュー
qrcode

DUPOアルゴリズムの革新的設計

WebAgentは、モデルの最適化にオリジナルのDUPO(Dual-Phase Unified Optimization)アルゴリズムを使用しており、これは教師あり学習と強化学習を段階的に統合するフレームワークである。第一段階は、50万件の注釈付きデータを用いた教師ありの微調整で基本能力を構築し、第二段階は、3万件の高品質な探索トレースを用いた強化学習(RLHF:Reinforcement Learning Based on Human Feedback)を用いてポリシーの最適化を行う。この二段階学習により、このモデルはBrowsingBenchテストセットの未知のタスクタイプで42%の汎化能力向上を実証することができる。

トレーニング・プロセスにおける主な革新

  • ダイナミックなコース学習タスクの難易度勾配をモデルのパフォーマンスに基づいて適応的に調整する。
  • 多次元報酬関数精度、効率、情報の信頼性指標の同時最適化
  • 対決サンプル強化SailorFog-QAデータセットによる妨害耐性強化

エンジニアリング実現の利点

このフレームワークは分散学習をサポートし、512枚のGPUクラスタ上で72Bモデルの学習時間を72時間以内に制御できる。最適化されたモデルパラメータ数の利用率は60%増加し、同じコンピューティングリソースでより複雑なクロスドメインクエリタスクを処理できる。オープンソースコミュニティが提供する200以上のチューニングパラメータテンプレートは、開発者が移行学習を行うための敷居を大幅に下げます。

おすすめ

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

トップに戻る

ja日本語