問題の背景
HRMは1000個の学習サンプルしか必要としないが、ハイレベル数独のようなタスクの後半ではオーバーフィッティングを起こしやすく、テストセットでは±2%の性能変動が生じる。
予防プログラム
- データレベル::
- num-aug 1000パラメータを使用したデータ拡張
- 難易度の異なるサンプルをミックス(例:80% High + 20% Medium)
- トレーニング技術::
- 頻繁な検証のために eval_interval=2000 を設定する。
- 連続3回の検証で精度が低下した場合、トレーニングは停止する。
- weight_decay=1.0による正則化の強化
善後策
- 微調整のためのアーリーストップ・チェックポイントのロード
- 高レベルモジュールをフリーズし(puzzle_emb_lr=0)、低レベルモジュールだけをトレーニングする。
- ドロップアウト層の追加(確率0.1~0.3)
モニタリングの推奨事項
以下の指標はW&Bを通じて追跡されている:
- train_loss vs val_loss ギャップ
- 正確な精度の変化曲線
- 重量分布のヒストグラム
この答えは記事から得たものである。HRM:複雑な推論のための階層的推論モデルについて































