数据集特色功能详解
中文DeepSeek-R1蒸馏数据集具备多项特色功能,使其在同类数据集中脱颖而出:
1. 数据类型多样性
- 数学数据:包含需要逐步推理的数学题
- 逻辑推理:需要演绎归纳的逻辑问题
- 通用数据:来自小红书、知乎等的各类文本
2. 专门的数据处理功能
- 数学数据处理:支持自动添加推理提示词”请一步步推理,并把最终答案放到 boxed {}”
- 逻辑数据优化:提供特殊处理管道,确保逻辑一致性
3. 完善的训练支持
数据集可直接用于主流NLP框架(如PyTorch、TensorFlow)的训练流程,示例代码已包含BERT等常见模型的训练配置。
4. 详细数据统计
提供完整的数据类别分布信息,使用者可以精确控制训练数据的类别平衡。
本答案来源于文章《中文基于满血 DeepSeek-R1 蒸馏数据集,支持中文R1蒸馏SFT数据集》