中文DeepSeek-R1蒸馏数据集介绍
中文DeepSeek-R1蒸馏数据集是一个专门为机器学习和自然语言处理研究设计的开源中文数据集。由刘聪NLP团队发布,该数据集的核心特点包含以下方面:
- 数据规模:包含110,000条高质量数据
- tipo de dados:涵盖数学数据、逻辑推理数据以及通用类型数据(如小红书、知乎等内容)
- garantia de qualidade (QA):严格按照DeepSeek-R1官方标准进行数据蒸馏处理
- propriedade de código aberto:完全免费,可在Hugging Face和ModelScope平台获取
该数据集的主要应用场景包括:语言模型训练、对话系统开发、文本理解研究等。特别值得一提的是,它不仅提供了原始数据,还包含了详细的数据分布信息,使用者可以清楚地了解各类数据的占比情况。
Essa resposta foi extraída do artigoConjunto de dados de destilação DeepSeek-R1 de sangue puro baseado na China, compatível com o conjunto de dados SFT de destilação R1 chinêsO