Hintergrund des Themas
Obwohl HRM nur 1000 Trainingsbeispiele benötigt, neigt es in den späteren Phasen von Aufgaben wie High-Level-Sudoku zur Überanpassung, was zu Leistungsschwankungen von ±2% in der Testmenge führt.
Präventionsprogramm
- Ebene der Daten::
- Datenanreicherung mit dem Parameter -num-aug 1000
- Mischen von Proben mit unterschiedlichem Schwierigkeitsgrad (z. B. 80% Hoch + 20% Mittel)
- Trainingstechnik::
- eval_interval=2000 für häufige Validierung einstellen
- Das Training wird abgebrochen, wenn die Genauigkeit bei 3 aufeinanderfolgenden Validierungen sinkt.
- Verbesserte Regularisierung mit weight_decay=1.0
Abhilfemaßnahme
- Laden von Frühstopp-Kontrollpunkten für die Feinabstimmung
- Einfrieren von Modulen auf hoher Ebene (puzzle_emb_lr=0) und nur Module auf niedriger Ebene trainieren
- Dropout-Schicht hinzufügen (Wahrscheinlichkeit 0,1-0,3)
Monitoring-Empfehlungen
Die folgenden Metriken werden durch W&B verfolgt:
- train_loss vs val_loss Abstand
- exact_accuracy Änderungskurve
- Histogramm der Gewichtsverteilung
Diese Antwort stammt aus dem ArtikelHRM: Hierarchische Begründungsmodelle für komplexes BegründenDie































