Autoridade do conjunto de dados de destilação chinês DeepSeek-R1
O conjunto de dados chinês DeepSeek-R1 destilado é, de fato, um conjunto de dados confiável projetado especificamente para a pesquisa chinesa de aprendizado de máquina e processamento de linguagem natural. Esse conjunto de dados foi desenvolvido e lançado pela conhecida equipe de NLP da Liu Cong e contém 110 mil peças de dados de alta qualidade rigorosamente selecionados. Sua autoridade se reflete principalmente nos seguintes aspectos: em primeiro lugar, o processo de coleta de dados segue rigorosamente os detalhes padrão fornecidos pelo DeepSeek-R1; em segundo lugar, o conjunto de dados abrange matemática, raciocínio lógico e tipos gerais de dados de plataformas como Zhihu, Xiaohongshu etc., o que é altamente representativo; por último, o conjunto de dados foi lançado em duas das principais plataformas de IA, Hugging Face e ModelScope, e foi amplamente reconhecido pelo setor. O conjunto de dados foi lançado nas duas principais plataformas de IA, Hugging Face e ModelScope, e foi amplamente reconhecido pelo setor.
O conjunto de dados é especialmente adequado para vários cenários de pesquisa: treinamento de modelos do idioma chinês, teste de capacidade de raciocínio, aprendizado de conhecimento em vários domínios etc. Os pesquisadores podem acessar esses dados gratuitamente, o que reduz bastante o limite da pesquisa de PNL chinesa.
Essa resposta foi extraída do artigoConjunto de dados de destilação DeepSeek-R1 de sangue puro baseado na China, compatível com o conjunto de dados SFT de destilação R1 chinêsO