Background to the issue
同一实体在不同文档/段落中可能有不同表述(如”苹果公司”vs”Apple Inc.”),OntoCast通过三级消歧机制解决该问题。
prescription
- 本体锚定:在ontology目录预定义实体别名表(aliases.ttl)
- 上下文分析:运行时启用
--context-window 5
参数分析周边词汇 - manual calibration:处理完成后通过Fuseki界面查看
owl:sameAs
关系链
典型配置示例
在.env文件中设置:DISAMBIGUATION_STRICTNESS=0.7
(值越大匹配越严格)CROSS_DOC_LINKING=true
(启用跨文档实体关联)
Handling of special cases
- 对于领域专有名词:在data/dictionaries/添加术语表
- 动态出现的新实体:启用
AUTO_EXTEND_ONTOLOGY=true
自动扩展本体
This answer comes from the articleOntoCast: an intelligent framework for extracting semantic triples from documentsThe