シナリオ要件
30×30の迷路課題では、200ms以内に1つの推論を完了する必要があり、HRMの周期的構造に挑戦することになる。
最適化戦略
- リストラ::
- 高レベルモジュールの計画ステップ数を制限する(max_plan_steps=5)
- enable-flash-attnを使用すると、アテンション計算が速くなる。
- エンジニアリングの最適化::
- 事前に生成された迷路の特徴を持つルックアップテーブル
- 低レベルモジュールをTorchScriptに変換すると実行効率が向上する
- CUDA Graphによる計算ストリームのキャプチャ
- ハードウェア・フィット::
- テンソルコア計算を有効にする(torch.backends.cuda.matmul.allow_tf32=Trueを設定)
- 転送レイテンシを減らすために固定メモリを割り当てる (pin_memory=True)
実効
RTX 4070での最適化比較:
- 生ディレイ:320ms
- 最適化:182ms(リアルタイム要件を満たすため)
最適化への主な貢献:
1.フラッシュアテンションズ:40%加速
2.TorchScript:25%アクセラレーション
3.CUDAグラフ:15%アクセラレーション
この答えは記事から得たものである。HRM:複雑な推論のための階層的推論モデルについて































