Hintergrund des Themas
HRM虽然仅需1000训练样本,但在高难度数独等任务后期易出现过拟合,导致测试集性能波动达±2%。
Präventionsprogramm
- Ebene der Daten::
- 使用–num-aug 1000参数进行数据增强
- 混合不同难度样本(如80%高难度+20%中难度)
- Trainingstechnik::
- 设置eval_interval=2000频繁验证
- 当连续3次验证准确率下降即停止训练
- 采用weight_decay=1.0增强正则化
补救措施
- 加载早停的检查点进行微调
- 冻结高层模块(puzzle_emb_lr=0),只训练低层模块
- 添加Dropout层(概率0.1-0.3)
Monitoring-Empfehlungen
通过W&B跟踪以下指标:
– train_loss与val_loss差距
– exact_accuracy变化曲线
– 权重分布直方图
Diese Antwort stammt aus dem ArtikelHRM: Hierarchische Begründungsmodelle für komplexes BegründenDie