挑战描述
在航空航天等专业领域,文档常混合英/日/德等多语言术语,导致知识检索系统误判关键概念。
技术方案
- 多语言嵌入模型:更换vectors.yaml配置为paraphrase-multilingual-mpnet-base-v2
- 术语词典映射:在Neo4j创建术语对照表,如”Turbine=タービン=涡轮”
- 混合检索策略:先进行术语标准化替换,再执行向量相似度计算
操作流程
- 准备多语言术语表,转为Neo4j节点:
CREATE (:Term {en:”actuator”, ja:”アクチュエータ”, zh:”执行器”}) - 修改src/processing.py文本预处理逻辑,添加术语统一化步骤
- 测试时输入”アクチュエータ故障代码”,验证是否能关联英文手册内容
汽车零部件企业使用后,跨国工厂的知识复用率达到92%
本答案来源于文章《语析(Yuxi-Know):基于知识图谱的智能问答平台》