O treinamento da tarefa de contagem regressiva é dividido emPré-processamento de dadosresponder cantandotreinamento de modelosAs duas fases são descritas a seguir:
Fase I: Preparação de dados
Execute o comando:python ./examples/data_preprocess/countdown.py --local_dir {数据集路径}
O script será executado automaticamente:
- Gerar dados de treinamento que estejam em conformidade com o formato do modelo Qwen
- Criação de um modelo de prompt específico para tarefas de raciocínio numérico
- Dividir o conjunto de treinamento/validação (proporção padrão 8:2)
Fase II: Início do treinamento
As variáveis de ambiente precisam ser configuradas:
BASE_MODELCaminho do modelo básico (por exemplo, Qwen-1.5B)DATA_DIRCatálogo de dados pré-processadosEXPERIMENT_NAMEIdentificação da experiência (para registros wandb)
execução finalbash ./scripts/train_tiny_zero.shInicie o treinamento e o sistema o fará automaticamente:
- Rede de estratégia e rede de valor do Load VeRL
- Iniciar o Monte Carlo Tree Search (MCTS) para otimização da estratégia
- Precisão do conjunto de validação de saída por 100 etapas
Duração típica do treinamento: o modelo 1.5B leva cerca de 3,5 horas para atingir a precisão de validação 90%+ em um único H200.
Essa resposta foi extraída do artigoTinyZero: uma réplica de baixo custo do efeito epifânico do DeepSeeK-R1 ZeroO































