大規模な強化学習トレーニングにおけるGPUリソースの利用を最適化するには？

2025-08-28

326

直接リンクモバイルビュー

分散トレーニング最適化スキーム

ベリファイアの組み合わせvLLM+FSDPリソースの利用率を最大化するために、2層の並列戦略を採用した：

データ並列性::GRPOTrainerマルチGPU推論は、デフォルトでは--data-parallel-sizeパラメータ設定
モデル並列性:: と連携している。prime-rl統合により、FSDPフルスライスモードで1000億パラメータトレーニングをサポート
フローラインの最適化使用flash-attnAccelerated Attention Calculator：インストール時に追加することを推奨--no-build-isolation

推奨構成：

8枚以上のカードを使用するノードでは、以下の使用を推奨します。torchrunマルチノードのトレーニングを開始する。