DUPOアルゴリズムの革新的設計
WebAgentは、モデルの最適化にオリジナルのDUPO(Dual-Phase Unified Optimization)アルゴリズムを使用しており、これは教師あり学習と強化学習を段階的に統合するフレームワークである。第一段階は、50万件の注釈付きデータを用いた教師ありの微調整で基本能力を構築し、第二段階は、3万件の高品質な探索トレースを用いた強化学習(RLHF:Reinforcement Learning Based on Human Feedback)を用いてポリシーの最適化を行う。この二段階学習により、このモデルはBrowsingBenchテストセットの未知のタスクタイプで42%の汎化能力向上を実証することができる。
トレーニング・プロセスにおける主な革新
- ダイナミックなコース学習タスクの難易度勾配をモデルのパフォーマンスに基づいて適応的に調整する。
- 多次元報酬関数精度、効率、情報の信頼性指標の同時最適化
- 対決サンプル強化SailorFog-QAデータセットによる妨害耐性強化
エンジニアリング実現の利点
このフレームワークは分散学習をサポートし、512枚のGPUクラスタ上で72Bモデルの学習時間を72時間以内に制御できる。最適化されたモデルパラメータ数の利用率は60%増加し、同じコンピューティングリソースでより複雑なクロスドメインクエリタスクを処理できる。オープンソースコミュニティが提供する200以上のチューニングパラメータテンプレートは、開発者が移行学習を行うための敷居を大幅に下げます。
この答えは記事から得たものである。WebAgent:インテリジェントなWeb情報検索・処理ツールについて





























