挑战描述
在航空航天等专业领域,文档常混合英/日/德等多语言术语,导致知识检索系统误判关键概念。
technical program
- 多语言嵌入模型:更换vectors.yaml配置为paraphrase-multilingual-mpnet-base-v2
- 术语词典映射:在Neo4j创建术语对照表,如”Turbine=タービン=涡轮”
- hybrid search strategy:先进行术语标准化替换,再执行向量相似度计算
workflow
- 准备多语言术语表,转为Neo4j节点:
CREATE (:Term {en:”actuator”, ja:”アクチュエータ”, zh:”执行器”}) - 修改src/processing.py文本预处理逻辑,添加术语统一化步骤
- 测试时输入”アクチュエータ故障代码”,验证是否能关联英文手册内容
汽车零部件企业使用后,跨国工厂的知识复用率达到92%
This answer comes from the articleYuxi-Know: A Knowledge Graph-based Intelligent Q&A PlatformThe