SailorFog-QA 数据集的核心价值在于其创新性的难度设计:
- 信息模糊化处理:采用图采样技术重构原始数据,对关键实体(如人名、机构名)进行同义替换或属性泛化,模拟真实场景中的信息不完整性。例如将“Transformer 模型”改写为“某谷歌提出的注意力架构”。
- 多跳推理挑战:40% 的问题需要跨 3 个以上信息源进行推导,如“预测 Tesla 2025 年电池技术路线”需整合专利数据、高管访谈、学术论文三类内容。
- 评估维度丰富:除常规准确率外,还设计了信息溯源性(提供参考链接质量)、推理可解释性(逻辑链条完整性)等特色指标。
该数据集包含 12 万中英文样本,已应用于 WebSailor 的强化学习微调阶段,使模型在模糊查询场景下的 F1 值提升 22.5%。研究者可通过 WebAgent/dataset/sailorfog-QA.jsonl 获取数据,文件采用 JSON Lines 格式,每个条目包含:原始问、模糊问、黄金路径、支持证据等字段。
本答案来源于文章《WebAgent:智能网络信息搜索与处理工具》































 简体中文
简体中文				 English
English					           日本語
日本語					           Deutsch
Deutsch					           Português do Brasil
Português do Brasil