データセットの特徴
中国のDeepSeek-R1蒸留データセットには、類似のデータセットとは一線を画す多くの特徴がある:
1.データタイプの多様性
- 数学的データ段階的な推論を必要とする数学的問題を含む。
- 論理的推論演繹的帰納法を必要とする論理問題
- 共通データ小赤書』、『志』などからの様々なテキスト。
2.特殊なデータ処理機能
- 数理データ処理段階的に推論し、最終的な答えを枠{}に記入してください。
- 論理データの最適化論理的一貫性を確保するための特別な処理パイプラインの提供
3.充実したトレーニングサポート
このデータセットは、主流の自然言語処理フレームワーク(PyTorch、TensorFlowなど)の学習プロセスで直接使用することができ、サンプルコードには、BERTなどの一般的なモデルの学習設定がすでに含まれています。
4.詳細統計
データクラスの分布に関する完全な情報を提供し、ユーザーはトレーニングデータのクラスバランスを正確に制御することができます。
この答えは記事から得たものである。中国ベースの全血DeepSeek-R1蒸留データセット、中国R1蒸留SFTデータセットをサポートについて































