WebWalker bietet Entwicklern ein standardisiertes Bewertungsverfahren:
- Vorbereitung der DatenWebWalkerQA: Laden Sie den WebWalkerQA-Datensatz (mit mehr als 15.000 markierten Beispielen) herunter, der Sequenzen von Webseitenaktionen und erwartete Ergebnisse enthält. Ausführung wget https://github.com/Alibaba-NLP/WebAgent/raw/main/dataset/webwalkerqa.jsonlErhalten.
- Testdurchführung: Lauf python evaluate_webwalker.py --dataset webwalkerqa.jsonl --model YOUR_MODEL_PATHDer Parameter -split unterstützt benutzerdefinierte Testteilmengen (geben Sie train/val/test mit dem Parameter -split an).
- Analyse der IndikatorenDer Bericht enthält drei Kernindikatoren:
- Navigationsgenauigkeit (Fähigkeit, die Zielseite zu finden)
- Operative Effizienz (durchschnittliche Anzahl von Schritten)
- Informationsgewinnung F1-Wert
 
- Vergleich der ErgebnisseWebWalker verfügt über integrierte Benchmark-Daten für das SOTA-Modell (einschließlich der fein abgestimmten GPT-4-Version), die Entwickler mit dem Parameter -benchmark vergleichen können.
Erweiterte Verwendung: Durch Ändern der webwalker/envs/custom_env.py Bestimmte Standortstrukturen können simuliert werden, oder es können negative Testfälle eingeschleust werden, um die Robustheit des Modells zu erhöhen.
Diese Antwort stammt aus dem ArtikelWebAgent: Ein intelligentes Werkzeug zur Suche und Verarbeitung von WebinformationenDie































 Deutsch
Deutsch				 简体中文
简体中文					           English
English					           日本語
日本語					           Português do Brasil
Português do Brasil