開発者はWebWalkerをモデル・パフォーマンス・テストにどのように利用できますか？

2025-08-22

692

直接リンクモバイルビュー

WebWalkerは、標準化された評価プロセスを開発者に提供します：

データ準備WebWalkerQA データセット（15,000以上のラベル付きサンプル）をダウンロードします。実行 wget https://github.com/Alibaba-NLP/WebAgent/raw/main/dataset/webwalkerqa.jsonl ゲットだ。
テスト実行走る python evaluate_webwalker.py --dataset webwalkerqa.jsonl --model YOUR_MODEL_PATHsplitパラメータは、カスタム・テスト・サブセットをサポートします（-splitパラメータでtrain/val/testを指定します）。
指標の分析報告書は3つの中核指標をアウトプットしている：
- ナビゲーションの精度（目的のページを見つける能力）
- 作業効率（平均ステップ数）
- 情報抽出 F1値
結果の比較WebWalkerには、SOTAモデル（GPT-4の微調整バージョンを含む）のベンチマークデータが組み込まれており、開発者は-benchmarkパラメータを使って、並べて比較することができます。

高度な使用法：以下のように webwalker/envs/custom_env.py 特定のサイト構造をシミュレートしたり、モデルのロバスト性を高めるために敵対的なテストケースを注入することもできる。

クイック照会ステーションAIツール