Processo completo de treinamento em várias etapas
O projeto Open R1 segue rigorosamente o caminho de implementação em três fases do relatório técnico:
- R1-Fase de destilação::
estar em movimentopython src/open_r1/distill.py --corpus <path>Refinamento de um corpus de alta qualidade, observando que o caminho do corpus precisa conter as seis categorias de dados brutos rotulados para relatórios técnicos - Estágio de pipeline de RL puro::
realizarpython src/open_r1/rl_pipeline.pyTrês conjuntos de dados especializados precisam ser preparados na ocasião:- Matemática: formato MATH Benchmark
- Raciocínio: GSM8K aprimorado
- Código: Dados de conversão do HumanEval-X
- Fase final de ajuste::
fazer uso demulti_stage_training.pyIntegração dos resultados das duas primeiras fases, os principais parâmetros incluem:- -modelo: caminho do ponto de verificação do modelo básico
- -rl_weight: Peso do RLloss (recomendado 0,3-0,7)
- -warmup_steps: pelo menos 5000 passos de aquecimento
Imediatamente após cada fase, é recomendável executar o evaluate.py para benchmarking, a fim de garantir que os resultados da fase estejam de acordo com o padrão antes de avançar.
Essa resposta foi extraída do artigoOpen R1: o rosto abraçado replica o processo de treinamento do DeepSeek-R1O































