海外からのアクセス：www.kdjingpai.com

Ctrl + D このサイトをブックマークする

現在の場所図頭 " AIアンサー

TinyZeroを使ってカウントダウンのトレーニングをするには？重要なステップは何ですか？

2025-09-10

3.0 K

カウントダウン・タスクのトレーニングは次のように分けられる。データ前処理歌で応えるモデルトレーニングこの2つのフェーズを以下に説明する：

第1段階：データの準備
コマンドを実行する：python ./examples/data_preprocess/countdown.py --local_dir {数据集路径}
スクリプトは自動的に

Qwenのモデル・フォーマットに準拠したトレーニング・データを生成する。
数値推論タスクのための具体的なプロンプトテンプレートの構築
訓練セットと検証セットの分割（デフォルトの比率は8:2）

フェーズII：トレーニング開始
環境変数を設定する必要がある：

BASE_MODELベースモデルのパス（例：Qwen-1.5B）
DATA_DIR前処理済みデータカタログ
EXPERIMENT_NAME実験識別（wandbレコード用）

最終実行bash ./scripts/train_tiny_zero.shトレーニングを開始すれば、システムは自動的に

VRL戦略ネットワークとバリュー・ネットワークの読み込み
戦略最適化のためのモンテカルロ・ツリー・サーチ（MCTS）を開始する。
100ステップあたりの出力検証セットの精度

典型的なトレーニング時間：1.5Bモデルは、H200 1台で90%+の検証精度に達するのに約3.5時間かかる。

この答えは記事から得たものである。TinyZero：DeepSeeK-R1ゼロのエピファニー効果を低コストで再現について

無断転載を禁じます：AI生産性ツール " TinyZeroを使ってカウントダウンのトレーニングをするには？重要なステップは何ですか？

おすすめ