As principais etapas para a integração do léxico sensível entre os idiomas são as seguintes:
- formato de tesauro universalNão importa o uso de Java/PHP/Go, etc., todos leem diretamente a codificação UTF-8
sensitive-lexicon.txt
Arquivo de texto, analisado como uma matriz por linha. - Seleção de algoritmos de adaptação de idiomaRecomendações de Java
org.ahocorasick.trie
Implementação de biblioteca do DFA; disponível para PHPphptrie
Extensões; Biblioteca padrão da linguagem Gostrings.Contains
Isso pode ser feito rapidamente com a estrutura do Map. - Módulos de uso geral empacotadosEncapsulamento: encapsular a lógica de carregamento e correspondência do tesauro em serviços independentes (por exemplo, API REST), que são chamados por diferentes sistemas comerciais por meio de interfaces.
Essa solução pode ser integrada à base em menos de uma hora e tem uma perda de desempenho menor do que o 5%.
Essa resposta foi extraída do artigoSensitive-lexicon: um dicionário de sinônimos continuamente atualizado para palavras sensíveis em chinêsO