数据集特色功能详解
中文DeepSeek-R1蒸馏数据集具备多项特色功能,使其在同类数据集中脱颖而出:
1. 数据类型多样性
- 数学数据:包含需要逐步推理的数学题
- inferência lógica:需要演绎归纳的逻辑问题
- 通用数据:来自小红书、知乎等的各类文本
2. 专门的数据处理功能
- Processamento de dados matemáticos:支持自动添加推理提示词”请一步步推理,并把最终答案放到 boxed {}”
- 逻辑数据优化:提供特殊处理管道,确保逻辑一致性
3. 完善的训练支持
数据集可直接用于主流NLP框架(如PyTorch、TensorFlow)的训练流程,示例代码已包含BERT等常见模型的训练配置。
4. 详细数据统计
提供完整的数据类别分布信息,使用者可以精确控制训练数据的类别平衡。
Essa resposta foi extraída do artigoConjunto de dados de destilação DeepSeek-R1 de sangue puro baseado na China, compatível com o conjunto de dados SFT de destilação R1 chinêsO