O WebWalker oferece aos desenvolvedores um processo de avaliação padronizado:
- Preparação de dadosDownload do conjunto de dados do WebWalkerQA (com mais de 15.000 amostras rotuladas) contendo sequências de ações de páginas da Web e resultados esperados. Execução
wget https://github.com/Alibaba-NLP/WebAgent/raw/main/dataset/webwalkerqa.jsonlObter. - execução de testes: Executar
python evaluate_webwalker.py --dataset webwalkerqa.jsonl --model YOUR_MODEL_PATHO parâmetro -split oferece suporte a subconjuntos de teste personalizados (especifique train/val/test com o parâmetro -split). - Análise de indicadoresO relatório apresenta três indicadores principais:
- Precisão da navegação (capacidade de encontrar a página de destino)
- Eficiência operacional (número médio de etapas)
- Extração de informações Valor F1
- Comparação de resultadosO WebWalker tem dados de benchmark integrados para o modelo SOTA (incluindo a versão ajustada GPT-4), que os desenvolvedores podem comparar lado a lado com o parâmetro -benchmark.
Uso avançado: Ao modificar o webwalker/envs/custom_env.py Estruturas específicas do site podem ser simuladas, ou casos de teste contraditórios podem ser injetados para aumentar a robustez do modelo.
Essa resposta foi extraída do artigoWebAgent: uma ferramenta inteligente de pesquisa e processamento de informações da WebO





























