強化学習における学習データの質不足の問題を解決するには？

2025-09-05

1.5 K

データ品質改善プログラム

Open-Reasoner-Zeroは、データ問題に対する完全なソリューションを提供します：

57kの高品質データセットこのプロジェクトで提供される前処理済みのデータセットは、複数の段階を経て選別され、以下のような内容を含んでいる：
- 20k GPQAダイヤモンド・スタンダード・データ
- 15kの論理的推論データ
- 22kの多段階判定データ
カスタマイズされたデータ処理プロセスsrc/data_processing ディレクトリで利用可能：
1. clean_raw_data.py - 生データのクレンジング
2. generate_synthetic.py - 合成データ生成
3. quality_filter.py - 品質フィルタリング（PPL閾値はデフォルトで2.5に設定されている）

フィールド固有のデータを追加する：