Medidas abrangentes para prevenção e controle de sobreajuste
As seguintes medidas de proteção são recomendadas para o risco de sobreajuste no processo de treinamento do Search-R1:
- Nível de dados::
- Certifique-se de que o conjunto de treinamento seja grande o suficiente (recomenda-se >100.000 amostras)
- existir
data_processEstágio Adicionar aprimoramento de dados
- nível do modelo::
- Camada de eliminação ativada (probabilidade padrão 0,1)
- fazer uso de
weight_decay=0.01Realizar a regularização L2
- Estratégias de treinamento::
- Adoção de um mecanismo de parada antecipada (
early_stopping_patience=3) - Defina o decaimento da taxa de aprendizado (
lr_scheduler_type=cosine)
- Adoção de um mecanismo de parada antecipada (
Métodos de monitoramento e validação:
- Monitoramento da curva de perda do trem/vale via Wandb
- Regularmente em
eval_steps=500Ao validar conjuntos de testes - sonda
Full experiment log 2A lacuna generalizada em
Programa de tratamento de emergência: imediatamente quando for detectada uma queda nas métricas do conjunto de validação:
1. taxa de aprendizado reduzida 50%
2. aumento do volume de dados de treinamento
3. congelamento de partes da camada de rede
Essa resposta foi extraída do artigoSearch-R1: Aprendizado por reforço para treinar modelos grandes para pesquisa e raciocínioO































