Mehrstufiger Ausbildungsprozess abgeschlossen
Das Projekt Open R1 folgt strikt dem dreistufigen Implementierungspfad des technischen Berichts:
- R1-Destillationsphase::
in Bewegung seinpython src/open_r1/distill.py --corpus <path>Verfeinerung eines hochwertigen Korpus, wobei zu beachten ist, dass der Korpuspfad die sechs Kategorien von Rohdaten enthalten muss, die für technische Berichte gekennzeichnet sind - Reine RL-Pipelinestufe::
vollziehenpython src/open_r1/rl_pipeline.pyDrei spezielle Datensätze müssen zu diesem Zeitpunkt vorbereitet werden:- Mathematik: MATH Benchmark-Format
- Begründung: GSM8K Enhanced
- Code: HumanEval-X Konvertierungsdaten
- Letzte Abstimmungsphase::
ausnutzenmulti_stage_training.pyIntegration der Ergebnisse der ersten beiden Phasen, zu den wichtigsten Parametern gehören:- -Modell: Kontrollpunktpfad des Basismodells
- -rl_weight: RLloss-Gewicht (empfohlen 0,3-0,7)
- -warmup_steps: mindestens 5000 Aufwärmschritte
Unmittelbar nach jeder Phase wird empfohlen, evaluate.py zum Benchmarking auszuführen, um sicherzustellen, dass die Ergebnisse der Phasen dem Standard entsprechen, bevor man fortfährt.
Diese Antwort stammt aus dem ArtikelOpen R1: Umarmendes Gesicht repliziert den DeepSeek-R1 TrainingsprozessDie































