Programm zur Gewährleistung der Reproduzierbarkeit
Open-Reasoner-Zero bietet volle Unterstützung bei der Reproduktion:
- Vollständiges Docker-Umgebungspaket::
- Vorgefertigte Bilder:
docker pull openreasonerzero/official:latest - Präzise Versionskontrolle: Dockerfile sperrt PyTorch 2.0.1 + cu117 und andere Kern-Abhängigkeiten
- Skripte zur Umgebungsvalidierung:
./scripts/verify_env.py
- Vorgefertigte Bilder:
- Experimentelles Aufzeichnungssystem::
- automatische Generierung
experiment_log.jsonAufzeichnungen:- Vollständiger Git-Commit-Hash
- CUDA/cuDNN-Version
- Alle zufälligen Saatgutwerte
- ausnutzen
--enable-wandbParametrische VerbindungenGewichte & Verzerrungen Service
- automatische Generierung
Vorschläge zur Verbundforschung
Vorgeschlagener Arbeitsablauf:
- Erstellen Sie einen experimentellen Zweig:
git checkout -b exp-[实验代号] - Änderungen
config.yamlHinzufügen einer Änderungsnotiz bei - ausnutzen
./scripts/snapshot.shErzeugen eines Schnappschusses der Umgebung - Annahme der GPQA Diamond Benchmarks als harmonisierter Bewertungsstandard
Diese Antwort stammt aus dem ArtikelOpen-Reasoner-Zero: Open-Source-Plattform für großangelegtes Reasoning Reinforcement Learning TrainingDie




























