Overseas access: www.kdjingpai.com
Bookmark Us
Current Position:fig. beginning " AI Answers

如何利用TinyZero完成倒计时任务的训练?关键步骤是什么?

2025-09-10 2.8 K

倒计时任务训练分为Data preprocessingcap (a poem)model training两个阶段,具体操作流程如下:

阶段一:数据准备
Execute the command:python ./examples/data_preprocess/countdown.py --local_dir {数据集路径}
该脚本会自动:

  1. 生成符合Qwen模型格式的训练数据
  2. 构建数字推理任务的特定prompt模板
  3. 分割训练/验证集(默认比例8:2)

阶段二:训练启动
需配置环境变量:

  • BASE_MODEL:基础模型路径(如Qwen-1.5B)
  • DATA_DIR:预处理后的数据目录
  • EXPERIMENT_NAME:实验标识(用于wandb记录)

最后执行bash ./scripts/train_tiny_zero.sh启动训练,系统会自动:

  1. 加载veRL策略网络和价值网络
  2. 启动蒙特卡洛树搜索(MCTS)进行策略优化
  3. 每100step输出验证集准确率

典型训练时长:1.5B模型在单H200上约需3.5小时达到90%+验证准确率。

Recommended

Can't find AI tools? Try here!

Just type in the keyword Accessibility Bing SearchYou can quickly find all the AI tools on this site.

Top

en_USEnglish