数据质量提升方案
Open-Reasoner-Zero 针对数据问题提供了完整的解决方案:
- 57k高质量数据集:项目自带的预处理数据集已通过多阶段筛选,包含:
- 20k条GPQA Diamond标准数据
- 15k条逻辑推理数据
- 22k条多步决策数据
- 自定义数据处理流程:在src/data_processing目录下提供:
clean_raw_data.py
– 原始数据清洗generate_synthetic.py
- 合成データ生成quality_filter.py
– 质量过滤(PPL阈值默认设为2.5)
扩展数据方案
若要添加领域特定数据:
- ビルドアップ
custom_data/
目录存放新数据 - 修正
config.yaml
中的data_mix_ratio参数控制数据混合比例 - 推荐使用Jupyter Notebook交互式验证数据质量
この答えは記事から得たものである。Open-Reasoner-Zero:オープンソースの大規模推論強化学習トレーニングプラットフォームについて