Com base em documentação oficial e dados experimentais, o treinamento em GRH requer atenção especial aos seguintes pontos:
Preparação de dados
- Manter a diversidade da amostra (por exemplo, treinamento de Sudoku usando técnicas de aumento de dados)
- É suficiente controlar o tamanho da amostra em torno de 1.000 (um tamanho muito grande pode provocar um ajuste excessivo)
Estratégias de treinamento
- Configuração da taxa de aprendizado: valor inicial recomendado de 7e-5 (GPU única) ou 1e-4 (multi-GPU)
- Mecanismo de interrupção antecipada: a interrupção deve ser considerada quando a precisão da validação atingir 98%
- Controle de tamanho de lote: 384 recomendado para uma única GPU (por exemplo, RTX 4070)
Evitar problemas
- Instabilidade numérica: adicionar recorte de gradiente (limite definido como 1,0)
- sobreajusteUso de redução de peso (valor recomendado 1,0)
- <b]Dificuldades de convergênciaVerificar se a versão de instalação do FlashAttention corresponde à arquitetura da GPU
Desempenho típico de treinamento: são necessárias cerca de 10 horas para treinar um modelo difícil de Sudoku em uma RTX 4070, o que pode ser reduzido para 10 minutos em um ambiente de 8 placas. As flutuações de precisão normalmente variavam de ±2%.
Essa resposta foi extraída do artigoHRM: modelos de raciocínio hierárquico para raciocínio complexoO































