Das Training für Countdown-Aufgaben ist unterteilt inVorverarbeitung der Datenim Gesang antwortenModellschulungDie beiden Phasen werden im Folgenden beschrieben:
Phase I: Datenaufbereitung
Führen Sie den Befehl aus:python ./examples/data_preprocess/countdown.py --local_dir {数据集路径}
Das Skript wird automatisch ausgeführt:
- Generierung von Trainingsdaten, die dem Qwen-Modellformat entsprechen
- Erstellung einer spezifischen Aufforderungsvorlage für Aufgaben des Zahlenverständnisses
- Split Training/Validation Set (Standardverhältnis 8:2)
Phase II: Beginn der Ausbildung
Es müssen Umgebungsvariablen konfiguriert werden:
BASE_MODELPfad des Basismodells (z. B. Qwen-1.5B)DATA_DIR: Vorverarbeiteter DatenkatalogEXPERIMENT_NAMEVersuchskennung (für wandb-Datensätze)
endgültige Ausführungbash ./scripts/train_tiny_zero.shStarten Sie das Training und das System wird automatisch:
- Last-VeRL-Strategie-Netzwerk und Wertnetzwerk
- Initiieren der Monte Carlo Tree Search (MCTS) zur Strategieoptimierung
- Ausgabe der Genauigkeit des Validierungssatzes pro 100 Schritte
Typische Trainingsdauer: Ein 1,5B-Modell benötigt etwa 3,5 Stunden, um eine Validierungsgenauigkeit von 90%+ auf einem einzelnen H200 zu erreichen.
Diese Antwort stammt aus dem ArtikelTinyZero: eine kostengünstige Nachbildung von DeepSeeK-R1 Zeros Epiphanie-EffektDie































