如何解决大语言模型在复杂信息检索任务中数据不足的问题？

2025-08-23

546

Background

大语言模型在复杂信息检索任务中常面临数据不足的挑战，传统方法需要大量标注数据进行训练，成本高昂且效率低下。SimpleDeepSearcher通过创新的数据合成与蒸馏技术，有效解决了这一问题。

网页搜索模拟： 系统模拟真实用户的搜索行为，包括：
- 自动生成多轮推理轨迹
- 捕获搜索关键词和网页结果
- 构建完整的检索-推理链条
数据合成技术：
- 从开放域QA资源进行多样性查询采样
- 配置data_synthesis_config.json调整领域覆盖
- 自动生成包含问题-搜索路径对的训练数据
知识蒸馏方案：
- 使用教师模型（如LLaMA/GPT）生成高质量数据
- 运行distillation.py进行数据质量提升
- 通过自我蒸馏迭代优化数据质量