O GraphGen oferece uma solução sistemática:
- construção de gráficos de conhecimentoDescrição: Construção de um gráfico de conhecimento refinado por meio da extração de entidades e relacionamentos do texto para fornecer uma base de conhecimento estruturada para a geração de dados. Os detalhes técnicos usam ferramentas de reconhecimento de entidades e extração de relacionamentos para processar automaticamente o texto bruto.
- Mecanismo de reconhecimento de ponto cegoQuantificar a incerteza do modelo usando a métrica de erro de calibração esperado (ECE). Na prática, ela pode ser definida como
ece_threshold(padrão 0,1) para definir os pontos de conhecimento que precisam ser reforçados. - Geração de dados direcionadosO sistema prioriza a geração de pares de Q&A para conhecimento de cauda longa com altos valores de ECE. Os usuários podem ajustar o
sampling_hops(recomenda-se de 2 a 3 saltos) para garantir que vários níveis de conhecimento associativo sejam cobertos. - Recomendações para a práticaPara aplicativos de domínio especializado, recomenda-se preparar pelo menos 500 dados de texto bruto, definir o
style=detailedGere pares de perguntas e respostas com explicações detalhadas e use o processamento acelerado por GPU.
Esse método melhora a cobertura do conhecimento de cauda longa em até 461 TP3T em comparação com as técnicas tradicionais de aprimoramento de dados (com base nos dados de teste do projeto).
Essa resposta foi extraída do artigoGraphGen: ajuste fino de modelos de linguagem usando gráficos de conhecimento para gerar dados sintéticosO































