As etapas a seguir precisam ser seguidas para treinar um modelo usando o projeto Open R1:
- Configuração do ambiente: Primeiro, crie um ambiente virtual Python e ative o
conda create -n openr1 python=3.11 conda activate openr1
- Instalação de dependênciasInstalação do vLLM e das dependências do projeto
pip install vllm==0.6.6.post1 pip install -e ".[dev]"
- Login da conta: Faça login nas contas Hugging Face e Weights and Biases
huggingface-cli login wandb login
- Modelos de treinamentoTreinamento usando os scripts fornecidos
- Treinamento GRPO:
python src/open_r1/grpo.py --dataset <dataset_path>
- Treinamento em SFT:
python src/open_r1/sft.py --dataset <dataset_path>
- Treinamento GRPO:
Em especial, o projeto oferece suporte ao treinamento em vários estágios, que pode começar com um modelo básico e passar gradualmente para um modelo de ajuste de aprendizado por reforço.
Essa resposta foi extraída do artigoOpen R1: o rosto abraçado replica o processo de treinamento do DeepSeek-R1O































