低コンピューティングパワー環境における小型GPTのトレーニングのための実行可能なソリューション
算術的制約のあるシナリオには、MiniMindが提供する26Mパラメータスケールモデルが最適である。以下は、ステップバイステップの解決策である:
- ハードウェアの適応:単一のNVIDIA 3090グラフィックスカードを使用すると、従来の大規模なモデルと比較して、90%以上のA100クラスタソリューションのコスト削減を必要とする、トレーニングを完了することができます。
- グラフィックスメモリ最適化のヒント:1) batch_sizeを4-8間隔に調整する 2) gradient_accumulation_steps=4に設定する 3) 混合精度でトレーニングする (-fp16パラメータ)
- トレーニング加速プログラム:train_pretrain.pyを修正し、-deepspeedパラメータを追加することで、DeepSpeedのZeRO-2オプティマイザーによるセグメンテーション戦略とマルチカード並列性を組み合わせる。
- 代替案だ:CPUデバイスしか持っていない場合は、LMConfig.pyのn_layers=6を変更し、d_model=128を下げることで、効果は薄れますが、基本的なトレーニングを完了することができます。
測定データによると、24GBのビデオメモリ環境で、この一連のソリューションは安定して実行でき、全体のトレーニング時間は2~3時間で制御でき、電気代は5元未満である。
この答えは記事から得たものである。MiniMind:ゼロから2時間のトレーニング 26MパラメータGPTオープンソースツールについて































