HRMトレーニングにおける小サンプルのオーバーフィッティング問題を解決するには？

2025-08-23

260

直接リンクモバイルビュー

問題の背景

HRMは1000個の学習サンプルしか必要としないが、ハイレベル数独のようなタスクの後半ではオーバーフィッティングを起こしやすく、テストセットでは±2%の性能変動が生じる。

データレベル::
- num-aug 1000パラメータを使用したデータ拡張
- 難易度の異なるサンプルをミックス（例：80% High + 20% Medium）
トレーニング技術::
- 頻繁な検証のために eval_interval=2000 を設定する。
- 連続3回の検証で精度が低下した場合、トレーニングは停止する。
- weight_decay=1.0による正則化の強化

以下の指標はW&Bを通じて追跡されている：
- train_loss vs val_loss ギャップ
- 正確な精度の変化曲線
- 重量分布のヒストグラム

この答えは記事から得たものである。HRM：複雑な推論のための階層的推論モデルについて