オーバーフィット問題への体系的対応
データ、モデル、トレーニングの3つの次元を統合した処理ソリューション:
- データレベル・ソリューション::
- トレーニングデータの量がモデルパラメーターの1/10以上であることを確認する(例:7Bモデルには少なくとも700MBの良質なデータが必要)
- プラットフォーム内蔵のデータクレンジングツールを使用して、重複検体を除去する。
- 5-10%ノイズデータ追加 一般化強化
- モデルレベルのソリューション::
- 微調整パラメータ "で "ドロップアウト "をオンにする(0.1~0.3を推奨)
- 事前学習層には小さい学習率(例えば1e-5)を使い、新しく追加する層には高い学習率(例えば5e-4)を使う。
- レイヤーごとの学習率減衰は、レイヤーごとに学習率を下げるために使われる
- トレーニングレベルでのソリューション::
- 評価ツールで検証セットを設定する(推奨トレーニング:検証=8:2)
- L2正則化が有効(重み減衰係数を0.01に設定)
- 検証セットの損失が3回連続で減少しない場合、自動的にトレーニングを停止する。
追加提案:微調整終了後、「モデル評価」の敵対的テスト機能を用いてロバスト性をチェックしたところ、F1値の変動<5%から、オーバーフィッティングがうまく抑制されていることがわかった。
この答えは記事から得たものである。ボルケーノ・アーク:ビッグモデルのトレーニングとクラウド・コンピューティング・サービス、150ドル相当の算術に申し込むについて































