TinyZero支持灵活的硬件部署方案,具体需求取决于模型规模:
- 基础配置(1.5B以下模型):单GPU即可运行,推荐显存≥24GB(如NVIDIA Tesla T4)
- 进阶配置(3B+模型):需要多GPU并行,实测2xH200(80GB显存/卡)可完成完整训练
软件安装流程包含关键步骤:
- 创建Python 3.9虚拟环境:
conda create -n zero python=3.9
- 安装PyTorch 2.4.0(需匹配CUDA 12.1):
pip install torch==2.4.0
- 核心组件:vllm 0.6.3(推理加速)+ ray(分布式计算)+ verl(强化学习框架)
- 性能优化工具:flash-attn(注意力加速)+ wandb(训练监控)
特别注意:多GPU训练需要设置ROLLOUT_TP_SIZE
参数与GPU数量一致,并配置VLLM_ATTENTION_BACKEND=XFORMERS
以启用优化器。
Essa resposta foi extraída do artigoTinyZero: uma réplica de baixo custo do efeito epifânico do DeepSeeK-R1 ZeroO