分散トレーニング最適化スキーム
ベリファイアの組み合わせvLLM+FSDPリソースの利用率を最大化するために、2層の並列戦略を採用した:
- データ並列性::
GRPOTrainerマルチGPU推論は、デフォルトでは--data-parallel-sizeパラメータ設定 - モデル並列性:: と連携している。
prime-rl統合により、FSDPフルスライスモードで1000億パラメータトレーニングをサポート - フローラインの最適化使用
flash-attnAccelerated Attention Calculator:インストール時に追加することを推奨--no-build-isolation
推奨構成:
- 7GPUが動作
vf-vllmサービスは推論リクエストを処理する - トレーニング処理を別のGPUで実行(ゼロステージ3の構成)
- セットアップ
NCCL_P2P_DISABLE=1コミュニケーションの遮断を避ける - 監視ツールによると、各GPUの使用率は85%以上を維持する必要がある。
8枚以上のカードを使用するノードでは、以下の使用を推奨します。torchrunマルチノードのトレーニングを開始する。
この答えは記事から得たものである。Verifiers:大規模言語モデルを学習するための強化学習環境ツールのライブラリについて































