WebWalkerは、標準化された評価プロセスを開発者に提供します:
- データ準備WebWalkerQA データセット(15,000以上のラベル付きサンプル)をダウンロードします。実行
wget https://github.com/Alibaba-NLP/WebAgent/raw/main/dataset/webwalkerqa.jsonlゲットだ。 - テスト実行走る
python evaluate_webwalker.py --dataset webwalkerqa.jsonl --model YOUR_MODEL_PATHsplitパラメータは、カスタム・テスト・サブセットをサポートします(-splitパラメータでtrain/val/testを指定します)。 - 指標の分析報告書は3つの中核指標をアウトプットしている:
- ナビゲーションの精度(目的のページを見つける能力)
- 作業効率(平均ステップ数)
- 情報抽出 F1値
- 結果の比較WebWalkerには、SOTAモデル(GPT-4の微調整バージョンを含む)のベンチマークデータが組み込まれており、開発者は-benchmarkパラメータを使って、並べて比較することができます。
高度な使用法:以下のように webwalker/envs/custom_env.py 特定のサイト構造をシミュレートしたり、モデルのロバスト性を高めるために敵対的なテストケースを注入することもできる。
この答えは記事から得たものである。WebAgent:インテリジェントなWeb情報検索・処理ツールについて





























