公式文書や実験データに基づくと、HRMトレーニングでは以下の点に特に注意を払う必要がある:
データ準備
- サンプルの多様性を維持する(例:データ増強技術を使用した数独トレーニング)
- サンプルサイズは1000前後で十分である(大きすぎるとオーバーフィッティングを引き起こす可能性がある)。
トレーニング戦略
- 学習率設定:推奨初期値7e-5(シングルGPU)または1e-4(マルチGPU)
- 早期停止メカニズム:検証精度が98%に達した時点で停止を検討すべきである。
- バッチサイズ制御:シングルGPU(例:RTX 4070)には384を推奨
問題の回避
- 数値的不安定性: グラデーションクリッピングを追加 (しきい値を1.0に設定)
- オーバーフィッティング重量減衰の使用(推奨値1.0)
- コンバージェンスの難しさFlashAttention のインストールバージョンが GPU アーキテクチャと一致しているかどうかを確認します。
典型的なトレーニング性能:RTX 4070で難しい数独モデルをトレーニングするのに約10時間かかるが、8カード環境では10分に短縮できる。精度の変動は通常±2%。
この答えは記事から得たものである。HRM:複雑な推論のための階層的推論モデルについて































