数据生成流程遵循三步质量控制机制::
- Diversitätsabfrage Sampling: durch Änderung der
query_sampling_config.json
设置领域异质性(建议0.7以上)、关键词复杂度(推荐3-5级)等参数,确保问题覆盖面 - 实时搜索合成: Lauf
data_synthesis.py
调用Google API获取网页内容,自动生成包含问题-关键词-网页结果-推理路径的原始数据 - 多维筛选优化: Verwendung
response_curation.py
按三个标准过滤:- 问题难度(SQL类问题需≥4级)
- 推理路径长度(建议保留≥3步的样本)
- 搜索召回率(需超过70%)
最佳实践表明,通过调整temperature=0.8
im Gesang antwortentop_p=0.9
参数生成的训练数据,能使模型微调效果提升23%。生成的优质数据默认存储在cache/curated_data
Katalog.
Diese Antwort stammt aus dem ArtikelSimpleDeepSearcher: Ein intelligentes Retrieval-Tool zur Verbesserung großer Sprachmodelle durch WebsucheDie