Die folgenden Schritte müssen befolgt werden, um ein Modell mit dem Open R1 Projekt zu trainieren:
- Umgebung Konfiguration: Erstellen Sie zunächst eine virtuelle Python-Umgebung und aktivieren Sie die
conda create -n openr1 python=3.11 conda activate openr1
- Installation von AbhängigkeitenvLLM und Projektabhängigkeiten installieren
pip install vllm==0.6.6.post1 pip install -e ".[dev]"
- Konto-AnmeldungLogin zu den Konten Hugging Face und Weights and Biases
huggingface-cli login wandb login
- AusbildungsmodelleSchulung mit Hilfe der mitgelieferten Skripte
- GRPO-Ausbildung:
python src/open_r1/grpo.py --dataset <dataset_path>
- SFT-Schulung:
python src/open_r1/sft.py --dataset <dataset_path>
- GRPO-Ausbildung:
Das Projekt unterstützt insbesondere ein mehrstufiges Training, das mit einem Basismodell beginnen und schrittweise zu einem Verstärkungslernmodell übergehen kann.
Diese Antwort stammt aus dem ArtikelOpen R1: Umarmendes Gesicht repliziert den DeepSeek-R1 TrainingsprozessDie































