Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " AI-Antworten

Wie trainiere ich für eine Countdown-Aufgabe mit TinyZero? Was sind die wichtigsten Schritte?

2025-09-10 3.0 K

Das Training für Countdown-Aufgaben ist unterteilt inVorverarbeitung der Datenim Gesang antwortenModellschulungDie beiden Phasen werden im Folgenden beschrieben:

Phase I: Datenaufbereitung
Führen Sie den Befehl aus:python ./examples/data_preprocess/countdown.py --local_dir {数据集路径}
Das Skript wird automatisch ausgeführt:

  1. Generierung von Trainingsdaten, die dem Qwen-Modellformat entsprechen
  2. Erstellung einer spezifischen Aufforderungsvorlage für Aufgaben des Zahlenverständnisses
  3. Split Training/Validation Set (Standardverhältnis 8:2)

Phase II: Beginn der Ausbildung
Es müssen Umgebungsvariablen konfiguriert werden:

  • BASE_MODELPfad des Basismodells (z. B. Qwen-1.5B)
  • DATA_DIR: Vorverarbeiteter Datenkatalog
  • EXPERIMENT_NAMEVersuchskennung (für wandb-Datensätze)

endgültige Ausführungbash ./scripts/train_tiny_zero.shStarten Sie das Training und das System wird automatisch:

  1. Last-VeRL-Strategie-Netzwerk und Wertnetzwerk
  2. Initiieren der Monte Carlo Tree Search (MCTS) zur Strategieoptimierung
  3. Ausgabe der Genauigkeit des Validierungssatzes pro 100 Schritte

Typische Trainingsdauer: Ein 1,5B-Modell benötigt etwa 3,5 Stunden, um eine Validierungsgenauigkeit von 90%+ auf einem einzelnen H200 zu erreichen.

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

zurück zum Anfang