Introdução ao conjunto de dados de destilação chinês DeepSeek-R1
O conjunto de dados de destilação chinês DeepSeek-R1 é um conjunto de dados chinês de código aberto projetado especificamente para pesquisa de aprendizado de máquina e processamento de linguagem natural. Lançado pela equipe de NLP de Cong Liu, os principais recursos desse conjunto de dados incluem o seguinte:
- Tamanho dos dados: 110.000 dados de alta qualidade incluídos
- tipo de dadosDados matemáticos, dados de raciocínio lógico e tipos genéricos de dados (por exemplo, conteúdo do Little Red Book, Zhihu, etc.)
- garantia de qualidade (QA)Destilação de dados: estritamente de acordo com o padrão oficial DeepSeek-R1 para destilação de dados
- propriedade de código aberto: Totalmente gratuito e disponível nas plataformas Hugging Face e ModelScope!
Os principais cenários de aplicação desse conjunto de dados incluem: treinamento de modelos de linguagem, desenvolvimento de sistemas de diálogo, pesquisa de compreensão de texto e assim por diante. Vale a pena mencionar que ele não apenas fornece dados brutos, mas também contém informações detalhadas sobre a distribuição de dados, para que o usuário possa entender claramente a proporção de cada tipo de dados.
Essa resposta foi extraída do artigoConjunto de dados de destilação DeepSeek-R1 de sangue puro baseado na China, compatível com o conjunto de dados SFT de destilação R1 chinêsO































