海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

如何利用TinyZero完成倒计时任务的训练?关键步骤是什么?

2025-09-10 2.8 K

倒计时任务训练分为数据预处理模型训练两个阶段,具体操作流程如下:

阶段一:数据准备
执行命令:python ./examples/data_preprocess/countdown.py --local_dir {数据集路径}
该脚本会自动:

  1. 生成符合Qwen模型格式的训练数据
  2. 构建数字推理任务的特定prompt模板
  3. 分割训练/验证集(默认比例8:2)

阶段二:训练启动
需配置环境变量:

  • BASE_MODEL:基础模型路径(如Qwen-1.5B)
  • DATA_DIR:预处理后的数据目录
  • EXPERIMENT_NAME:实验标识(用于wandb记录)

最后执行bash ./scripts/train_tiny_zero.sh启动训练,系统会自动:

  1. 加载veRL策略网络和价值网络
  2. 启动蒙特卡洛树搜索(MCTS)进行策略优化
  3. 每100step输出验证集准确率

典型训练时长:1.5B模型在单H200上约需3.5小时达到90%+验证准确率。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文