Descrição do desafio
Em campos especializados, como o aeroespacial, os documentos geralmente contêm uma mistura de inglês/japonês/alemão e outras terminologias multilíngues, o que leva a uma interpretação incorreta dos principais conceitos pelos sistemas de recuperação de conhecimento.
Programa técnico
- Modelos de incorporação multilíngue: substitui a configuração vectors.yaml por paraphrase-multilingual-mpnet-base-v2
- Mapeamento do dicionário de terminologiaCriar um glossário de termos no Neo4j, por exemplo, "Turbine=Turbine=Turbine".
- estratégia de pesquisa híbridaExecuta a substituição de normalização de termos antes de realizar cálculos de similaridade de vetores
fluxo de trabalho
- Preparar um glossário multilíngue de termos para os nós do Neo4j:
CREATE (:Term {en: "actuator", ja: "アクチュータ", zh: "actuator"}) - Modificar a lógica de pré-processamento de texto src/processing.py para adicionar etapas de unificação de terminologia
- Durante o teste, digite "アクチュエータ fault code" para verificar se o manual em inglês pode ser associado ao conteúdo.
A taxa de reutilização do conhecimento em fábricas multinacionais atinge 92% após o uso por empresas de autopeças
Essa resposta foi extraída do artigoYuxi-Know: uma plataforma inteligente de perguntas e respostas baseada em gráficos de conhecimentoO































