海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

什么是中文DeepSeek-R1蒸馏数据集?

2025-09-05 1.6 K

中文DeepSeek-R1蒸馏数据集介绍

中文DeepSeek-R1蒸馏数据集是一个专门为机器学习和自然语言处理研究设计的开源中文数据集。由刘聪NLP团队发布,该数据集的核心特点包含以下方面:

  • 数据规模:包含110,000条高质量数据
  • 数据类型:涵盖数学数据、逻辑推理数据以及通用类型数据(如小红书、知乎等内容)
  • 质量保证:严格按照DeepSeek-R1官方标准进行数据蒸馏处理
  • 开源性质:完全免费,可在Hugging Face和ModelScope平台获取

该数据集的主要应用场景包括:语言模型训练、对话系统开发、文本理解研究等。特别值得一提的是,它不仅提供了原始数据,还包含了详细的数据分布信息,使用者可以清楚地了解各类数据的占比情况。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文