倒计时任务训练分为Pré-processamento de dadosresponder cantandotreinamento de modelos两个阶段,具体操作流程如下:
阶段一:数据准备
Execute o comando:python ./examples/data_preprocess/countdown.py --local_dir {数据集路径}
该脚本会自动:
- 生成符合Qwen模型格式的训练数据
- 构建数字推理任务的特定prompt模板
- 分割训练/验证集(默认比例8:2)
阶段二:训练启动
需配置环境变量:
BASE_MODEL
:基础模型路径(如Qwen-1.5B)DATA_DIR
:预处理后的数据目录EXPERIMENT_NAME
:实验标识(用于wandb记录)
最后执行bash ./scripts/train_tiny_zero.sh
启动训练,系统会自动:
- 加载veRL策略网络和价值网络
- 启动蒙特卡洛树搜索(MCTS)进行策略优化
- 每100step输出验证集准确率
典型训练时长:1.5B模型在单H200上约需3.5小时达到90%+验证准确率。
Essa resposta foi extraída do artigoTinyZero: uma réplica de baixo custo do efeito epifânico do DeepSeeK-R1 ZeroO