Diretrizes para acessar e usar o conjunto de dados
O processo de uso do conjunto de dados de destilação chinês DeepSeek-R1 pode ser dividido nas seguintes etapas:
Métodos de aquisição
- Acesso às plataformas Hugging Face ou ModelScope
- Pesquisar por "Chinese-DeepSeek-R1-Distill-data-110k"
- Selecione o formato apropriado (por exemplo, JSON, CSV, etc.) para fazer o download do conjunto de dados
Carregamento e uso
- Preparação ambientalBibliotecas Python e de conjuntos de dados precisam ser instaladas
- Carregamento básico::
from datasets import load_dataset dataset = load_dataset("Congliu/Chinese-DeepSeek-R1-Distill-data-110k") - Visualização de dadosInformações básicas podem ser visualizadas por meio de print(dataset) e print(dataset['train'][0])
Pré-processamento e treinamento
Recomenda-se usar as bibliotecas de ferramentas relacionadas ao Transformer (por exemplo, os transformadores do Hugging Face) para o pré-processamento de dados e o treinamento do modelo. O conjunto de dados foi normalizado, mas o processamento adicional ainda pode ser realizado, dependendo dos requisitos específicos da tarefa.
Essa resposta foi extraída do artigoConjunto de dados de destilação DeepSeek-R1 de sangue puro baseado na China, compatível com o conjunto de dados SFT de destilação R1 chinêsO































