Estratégia integrada do GraphGen contra o overfitting:
- Mecanismos de proteção da diversidade::
1. adoçãostyleO controle paramétrico (conciso/detalhado/médico etc.) gera variação de expressão
2) A amostragem com vários saltos gera automaticamente perguntas e respostas de várias perspectivas sobre o mesmo ponto de conhecimento.
3. o módulo integrado de reconstrução de perguntas e respostas gera diferentes representações da mesma semântica - Programa de validação de dados::
- emconfigs/graphgen_config.yamlativardiversity_check: true
- O diretório de saída geradiversity_report.jsonInclui indicador de taxa de repetição
- Recomenda-se manter uma taxa de repetição de entidade <151 TP3T, que pode ser ajustada com o aumento da quantidade de dados de entrada - Recomendações de treinamento::
- Recomenda-se uma combinação de 1:2 de dados sintéticos e reais.
- A prioridade é dada aos modelos básicos com quantidades paramétricas de 7B e acima.
- Monitorar a perda do conjunto de validação com parada antecipada (parada antecipada)
O teste do projeto mostrou que esse esquema reduz o risco de sobreajuste em 671 TP3T (comparando o treinamento em dados puramente sintéticos).
Essa resposta foi extraída do artigoGraphGen: ajuste fino de modelos de linguagem usando gráficos de conhecimento para gerar dados sintéticosO































