カウントダウン・タスクのトレーニングは次のように分けられる。データ前処理歌で応えるモデルトレーニングこの2つのフェーズを以下に説明する:
第1段階:データの準備
コマンドを実行する:python ./examples/data_preprocess/countdown.py --local_dir {数据集路径}
スクリプトは自動的に
- Qwenのモデル・フォーマットに準拠したトレーニング・データを生成する。
- 数値推論タスクのための具体的なプロンプトテンプレートの構築
- 訓練セットと検証セットの分割(デフォルトの比率は8:2)
フェーズII:トレーニング開始
環境変数を設定する必要がある:
BASE_MODELベースモデルのパス(例:Qwen-1.5B)DATA_DIR前処理済みデータカタログEXPERIMENT_NAME実験識別(wandbレコード用)
最終実行bash ./scripts/train_tiny_zero.shトレーニングを開始すれば、システムは自動的に
- VRL戦略ネットワークとバリュー・ネットワークの読み込み
- 戦略最適化のためのモンテカルロ・ツリー・サーチ(MCTS)を開始する。
- 100ステップあたりの出力検証セットの精度
典型的なトレーニング時間:1.5Bモデルは、H200 1台で90%+の検証精度に達するのに約3.5時間かかる。
この答えは記事から得たものである。TinyZero:DeepSeeK-R1ゼロのエピファニー効果を低コストで再現について































