Como evitar problemas de ajuste excessivo do modelo devido a dados sintéticos?

2025-08-23

1.4 K

Estratégia integrada do GraphGen contra o overfitting:

Mecanismos de proteção da diversidade::
1. adoçãostyleO controle paramétrico (conciso/detalhado/médico etc.) gera variação de expressão
2) A amostragem com vários saltos gera automaticamente perguntas e respostas de várias perspectivas sobre o mesmo ponto de conhecimento.
3. o módulo integrado de reconstrução de perguntas e respostas gera diferentes representações da mesma semântica
Programa de validação de dados::
- emconfigs/graphgen_config.yamlativardiversity_check: true
- O diretório de saída geradiversity_report.jsonInclui indicador de taxa de repetição
- Recomenda-se manter uma taxa de repetição de entidade <151 TP3T, que pode ser ajustada com o aumento da quantidade de dados de entrada
Recomendações de treinamento::
- Recomenda-se uma combinação de 1:2 de dados sintéticos e reais.
- A prioridade é dada aos modelos básicos com quantidades paramétricas de 7B e acima.
- Monitorar a perda do conjunto de validação com parada antecipada (parada antecipada)

O teste do projeto mostrou que esse esquema reduz o risco de sobreajuste em 671 TP3T (comparando o treinamento em dados puramente sintéticos).

Ferramenta de IA da estação de consulta rápida