Uma resposta sistemática ao problema de sobreajuste
Uma solução de processamento integrado para as três dimensões de dados, modelo e treinamento:
- Soluções em nível de dados::
- Certifique-se de que a quantidade de dados de treinamento seja > 1/10 dos parâmetros do modelo (por exemplo, o modelo 7B requer pelo menos 700 MB de dados de boa qualidade)
- Remova amostras duplicadas usando a ferramenta de limpeza de dados incorporada à plataforma
- Adição de dados de ruído 5-10% Generalização aprimorada
- Soluções em nível de modelo::
- Ative o Dropout em "Fine tuning parameters" (parâmetros de ajuste fino) (0,1-0,3 recomendado)
- Use uma taxa de aprendizado menor (por exemplo, 1e-5) para a camada de pré-treinamento e uma taxa de aprendizado maior (por exemplo, 5e-4) para a camada recém-adicionada
- O decaimento da taxa de aprendizado em camadas é usado para reduzir a taxa de aprendizado camada por camada
- Soluções em nível de treinamento::
- Configure o conjunto de validação na Ferramenta de Avaliação (treinamento recomendado: validação = 8:2)
- Regularização L2 ativada (fator de decaimento do peso definido como 0,01)
- Interromper automaticamente o treinamento quando a perda do conjunto de validação não diminuir por 3 vezes consecutivas
Sugestão adicional: após a conclusão do ajuste fino, a robustez foi verificada usando a função de teste contraditório de "Avaliação de modelo", e a flutuação do valor F1 <5% indicou que o ajuste excessivo foi bem controlado.
Essa resposta foi extraída do artigoVolcano Ark: treinamento em modelos grandes e serviço de computação em nuvem, inscreva-se para obter uma aritmética equivalente a US$ 150O