Esquema de otimização de treinamento distribuído
Verificadores combinadosvLLM+FSDPde uma estratégia paralela de dois níveis para maximizar a utilização dos recursos:
- paralelismo de dados::
GRPOTrainerA inferência multi-GPU é suportada por padrão por meio do--data-parallel-sizeConfiguração de parâmetros - paralelismo de modelosObservação: Em conjunto com o
prime-rlA integração permite que o modo de fatia completa do FSDP suporte o treinamento de 100 bilhões de parâmetros - Otimização da linha de fluxo: Uso
flash-attnCalculadora de Atenção Acelerada, recomendada para ser adicionada durante a instalação--no-build-isolation
Configuração recomendada:
- 7 GPUs em execução
vf-vllmO serviço lida com solicitações de inferência - Execução do processo de treinamento em uma GPU separada (configuração Zero Stage 3)
- configurar
NCCL_P2P_DISABLE=1Evite o bloqueio da comunicação - As ferramentas de monitoramento mostram que a utilização de cada GPU deve permanecer acima de 85%
Para nós com mais de 8 cartões, recomenda-se usartorchrunIniciar o treinamento de vários nós.
Essa resposta foi extraída do artigoVerificadores: uma biblioteca de ferramentas de ambiente de aprendizagem por reforço para treinamento de modelos de linguagem de grande porteO































