WebWalker bietet Entwicklern ein standardisiertes Bewertungsverfahren:
- Vorbereitung der DatenWebWalkerQA: Laden Sie den WebWalkerQA-Datensatz (mit mehr als 15.000 markierten Beispielen) herunter, der Sequenzen von Webseitenaktionen und erwartete Ergebnisse enthält. Ausführung
wget https://github.com/Alibaba-NLP/WebAgent/raw/main/dataset/webwalkerqa.jsonlErhalten. - Testdurchführung: Lauf
python evaluate_webwalker.py --dataset webwalkerqa.jsonl --model YOUR_MODEL_PATHDer Parameter -split unterstützt benutzerdefinierte Testteilmengen (geben Sie train/val/test mit dem Parameter -split an). - Analyse der IndikatorenDer Bericht enthält drei Kernindikatoren:
- Navigationsgenauigkeit (Fähigkeit, die Zielseite zu finden)
- Operative Effizienz (durchschnittliche Anzahl von Schritten)
- Informationsgewinnung F1-Wert
- Vergleich der ErgebnisseWebWalker verfügt über integrierte Benchmark-Daten für das SOTA-Modell (einschließlich der fein abgestimmten GPT-4-Version), die Entwickler mit dem Parameter -benchmark vergleichen können.
Erweiterte Verwendung: Durch Ändern der webwalker/envs/custom_env.py Bestimmte Standortstrukturen können simuliert werden, oder es können negative Testfälle eingeschleust werden, um die Robustheit des Modells zu erhöhen.
Diese Antwort stammt aus dem ArtikelWebAgent: Ein intelligentes Werkzeug zur Suche und Verarbeitung von WebinformationenDie































