Histórico da questão
A mesma entidade pode ser representada de forma diferente em diferentes documentos/parágrafos (por exemplo, "Apple Inc." vs. "Apple Inc."). O OntoCast resolve esse problema com um mecanismo de desambiguação em três níveis.
prescrição
- ancoragem corporalTabela de aliases de entidades predefinidas (aliases.ttl) no diretório da ontologia
- análise contextualAtivar em tempo de execução
--context-window 5Vocabulário sobre análise paramétrica - calibração manual: visualizado por meio da interface Fuseki após a conclusão do processamento
owl:sameAscadeia de relacionamento
Exemplo de configuração típica
Definido no arquivo .env:DISAMBIGUATION_STRICTNESS=0.7(Quanto maior o valor, mais rigorosa é a correspondência)CROSS_DOC_LINKING=true(Habilitar associação de entidades entre documentos)
Tratamento de casos especiais
- Para nomes de domínio: adicione o glossário em data/dictionaries/
- Novas entidades emergentes dinamicamente: capacitação
AUTO_EXTEND_ONTOLOGY=trueExtensão automática da ontologia
Essa resposta foi extraída do artigoOntoCast: uma estrutura inteligente para extrair triplas semânticas de documentosO































