金融场景的特殊性
“苹果”可能指代公司、水果或期货合约,传统NER模型容易产生误判,导致图谱出现”乔布斯→种植→苹果”等错误关系。
LightRAG的消歧方案
- 领域增强型抽取::
- exist
env.example
set up inDOMAIN=finance
启用金融领域实体优先识别 - 内置FINANCIAL_ENTITIES词典(含”期货””期权”等2000+金融术语)
- exist
- 上下文消歧:当检测到歧义实体时:
- trig
disambiguate()
方法分析周边词汇(如”财报”提示公司实体) - 调用LLM进行语义验证(需在QueryParam设置
validate_entities=True
)
- trig
- 人工校核通道
通过可视化界面的
实体合并工具
手动关联:- 搜索”苹果公司”查看所有候选实体
- 批量选择正确指代进行合并
- 导出修正日志供模型迭代训练
This answer comes from the articleLightRAG: A Lightweight Framework for Building Retrieval Augmented Generation (RAG) ApplicationsThe
May not be reproduced without permission:AI productivity tools " 在金融风控场景中,如何避免知识图谱构建时的实体歧义问题?