Derzeitige Position:Abb. Anfang " AI-Antworten

如何使用SimpleDeepSearcher进行高质量训练数据生成？

2025-08-23

542

数据生成流程遵循三步质量控制机制::

Diversitätsabfrage Sampling: durch Änderung derquery_sampling_config.json设置领域异质性(建议0.7以上)、关键词复杂度(推荐3-5级)等参数，确保问题覆盖面
实时搜索合成: Laufdata_synthesis.py调用Google API获取网页内容，自动生成包含问题-关键词-网页结果-推理路径的原始数据
多维筛选优化: Verwendungresponse_curation.py按三个标准过滤：
1. 问题难度(SQL类问题需≥4级)
2. 推理路径长度(建议保留≥3步的样本)
3. 搜索召回率(需超过70%)

最佳实践表明，通过调整temperature=0.8im Gesang antwortentop_p=0.9参数生成的训练数据，能使模型微调效果提升23%。生成的优质数据默认存储在cache/curated_dataKatalog.

Schnellabfragestation AI-Tool