O TinyZero oferece suporte a opções flexíveis de implementação de hardware, dependendo do tamanho do modelo:
- Configuração básica (modelos de até 1,5B)GPU única pode ser executada, memória de vídeo recomendada ≥ 24 GB (por exemplo, NVIDIA Tesla T4)
- Configuração avançada (modelos 3B +)Se o paralelismo de várias GPUs for necessário, 2xH200 (80 GB de RAM/cartão) foi medido para concluir uma sessão de treinamento completa
O processo de instalação do software contém etapas importantes:
- Crie um ambiente virtual Python 3.9:
conda create -n zero python=3.9 - Instale o PyTorch 2.4.0 (precisa corresponder ao CUDA 12.1):
pip install torch==2.4.0 - Componentes principais: vllm 0.6.3 (aceleração da inferência) + ray (computação distribuída) + verl (estrutura de aprendizado por reforço)
- Ferramentas de otimização de desempenho: flash-attn (aceleração da atenção) + wandb (monitoramento de treinamento)
Observação especial: O treinamento com várias GPUs requer a configuração da opçãoROLLOUT_TP_SIZEé o mesmo que o número de GPUs e configure o parâmetroVLLM_ATTENTION_BACKEND=XFORMERSpara ativar o otimizador.
Essa resposta foi extraída do artigoTinyZero: uma réplica de baixo custo do efeito epifânico do DeepSeeK-R1 ZeroO































