Background
大语言模型在复杂信息检索任务中常面临数据不足的挑战,传统方法需要大量标注数据进行训练,成本高昂且效率低下。SimpleDeepSearcher通过创新的数据合成与蒸馏技术,有效解决了这一问题。
Core Solutions
- 网页搜索模拟: 系统模拟真实用户的搜索行为,包括:
- 自动生成多轮推理轨迹
- 捕获搜索关键词和网页结果
- 构建完整的检索-推理链条
- 数据合成技术:
- 从开放域QA资源进行多样性查询采样
- 配置data_synthesis_config.json调整领域覆盖
- 自动生成包含问题-搜索路径对的训练数据
- 知识蒸馏方案:
- 使用教师模型(如LLaMA/GPT)生成高质量数据
- 运行distillation.py进行数据质量提升
- 通过自我蒸馏迭代优化数据质量
operation suggestion
- 优先使用项目提供的871个优质样本作为基础
- 通过GoogleSearchAPI扩展实时网页数据
- 定期执行response_curation.py进行数据筛选
This answer comes from the articleSimpleDeepSearcher: An Intelligent Retrieval Tool for Augmenting Large Language Models with Web SearchThe