Open R1 プロジェクトを使用してモデルをトレーニングするには、以下の手順に従う必要があります:
- 環境設定まず、Pythonの仮想環境を作成し、次のコマンドを実行します。
conda create -n openr1 python=3.11 conda activate openr1
- 依存関係のインストールvLLMとプロジェクトの依存関係のインストール
pip install vllm==0.6.6.post1 pip install -e ".[dev]"
- アカウントログインハギング・フェイスとウェイト・アンド・バイアスのアカウントにログインしてください。
huggingface-cli login wandb login
- トレーニングモデル提供されたスクリプトを使用したトレーニング
- GRPOトレーニング:
python src/open_r1/grpo.py --dataset <dataset_path>
- SFTトレーニング
python src/open_r1/sft.py --dataset <dataset_path>
- GRPOトレーニング:
特筆すべきは、このプロジェクトは、ベースモデルから始めて徐々に強化学習チューニングモデルに移行できる多段階トレーニングをサポートしていることだ。
この答えは記事から得たものである。オープンR1:ハグする顔がDeepSeek-R1のトレーニングプロセスを再現について































