当前位置：首页 » AI答疑

SimpleDeepSearcher的数据筛选技术保证了训练数据的高质量

2025-08-23

540

数据质量控制核心技术

SimpleDeepSearcher 采用先进的数据筛选技术确保训练数据质量，这是其相比同类工具的显著优势之一。

多维度筛选：通过 response_curation.py 脚本实现，基于问题难度、推理路径长度和搜索效果等多重标准进行过滤，筛选后的高质量数据存储在 cache/curated_data 目录。
质量指标：系统会评估每个训练样本的综合质量，保留能够真正提升模型性能的数据，舍弃低效或误导性样本，大幅提高训练效率。
数据处理流程：包括初始数据生成、多样化采样和多轮筛选优化三个主要环节，确保最终训练集的代表性和有效性。

这种严格的数据质量控制机制使 SimpleDeepSearcher 能够在仅使用 871 个优质样本的情况下完成对 QWEN2.5-32B 这样大规模模型的微调，显著降低了训练成本和对计算资源的需求。