Histórico da questão
Embora o HRM exija apenas 1.000 amostras de treinamento, ele é propenso a se ajustar demais nos estágios posteriores de tarefas como o Sudoku de alto nível, resultando em flutuações de desempenho de ±2% no conjunto de testes.
Programa de prevenção
- Nível de dados::
- Aprimoramento de dados usando o parâmetro -num-aug 1000
- Mistura de amostras de diferentes níveis de dificuldade (por exemplo, 80% High + 20% Medium)
- técnica de treinamento::
- Defina eval_interval=2000 para validação frequente
- O treinamento é interrompido quando a precisão cai em 3 validações consecutivas
- Regularização aprimorada com weight_decay=1,0
medida corretiva
- Carregamento de pontos de verificação de parada antecipada para ajuste fino
- Congelar módulos de alto nível (puzzle_emb_lr=0) e treinar apenas módulos de baixo nível
- Adicionar camada de perda (probabilidade 0,1-0,3)
Recomendações de monitoramento
As métricas a seguir são monitoradas pela W&B:
- gap perda_treino vs. perda_val
- curva de alteração da precisão exata
- Histograma de distribuição de peso
Essa resposta foi extraída do artigoHRM: modelos de raciocínio hierárquico para raciocínio complexoO































