O principal valor do conjunto de dados SailorFog-QA é seu projeto inovador de dificuldade:
- defuzzificaçãoOs dados originais são reconstruídos usando técnicas de amostragem de gráficos, e as principais entidades (por exemplo, nomes de pessoas e organizações) são substituídas por sinônimos ou generalizadas com atributos, para simular a incompletude das informações em cenários reais. Por exemplo, o "Modelo de transformador" é reescrito como "Arquitetura de atenção proposta por um Google".
- Desafio de raciocínio com vários saltosProblema 40% precisa ser derivado de mais de três fontes de informação, por exemplo, "Predicting Tesla's 2025 Battery Technology Route" exige a integração de três tipos de conteúdo: dados de patentes, entrevistas com executivos e artigos acadêmicos.
- Riqueza das dimensões de avaliaçãoIndicadores característicos: Além das taxas de precisão convencionais, foram criados indicadores característicos, como rastreabilidade das informações (qualidade dos links de referência fornecidos) e interpretabilidade do raciocínio (integridade das cadeias lógicas).
Esse conjunto de dados contém 120.000 amostras em inglês e chinês e foi aplicado à fase de ajuste fino do aprendizado por reforço para o WebSailor, resultando em uma melhoria de 22,5% no valor F1 do modelo em cenários de consulta difusa. WebAgent/dataset/sailorfog-QA.jsonl Para obter os dados, o arquivo está no formato JSON Lines e cada entrada contém campos como: pergunta original, pergunta difusa, caminho dourado, evidência de suporte etc.
Essa resposta foi extraída do artigoWebAgent: uma ferramenta inteligente de pesquisa e processamento de informações da WebO





























