海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

如何使用SimpleDeepSearcher进行高质量训练数据生成?

2025-08-23 517

数据生成流程遵循三步质量控制机制

  • 多样性查询采样:通过修改query_sampling_config.json设置领域异质性(建议0.7以上)、关键词复杂度(推荐3-5级)等参数,确保问题覆盖面
  • 实时搜索合成:运行data_synthesis.py调用Google API获取网页内容,自动生成包含问题-关键词-网页结果-推理路径的原始数据
  • 多维筛选优化:使用response_curation.py按三个标准过滤:
    1. 问题难度(SQL类问题需≥4级)
    2. 推理路径长度(建议保留≥3步的样本)
    3. 搜索召回率(需超过70%)

最佳实践表明,通过调整temperature=0.8top_p=0.9参数生成的训练数据,能使模型微调效果提升23%。生成的优质数据默认存储在cache/curated_data目录。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文