Há duas abordagens de integração típicas para os desenvolvedores:
- Métodos básicosPalavras sensíveis de emenda em padrões (por exemplo, "palavra 1|palavra 2") por expressões regulares, adequadas para cenários de baixo desempenho.
- Métodos eficientesUsando algoritmos de árvore DFA ou Trie, o léxico é primeiramente carregado em uma estrutura de dados (por exemplo, a biblioteca Trie do Python) e, em seguida, o texto é correspondido. A complexidade do tempo está relacionada apenas ao comprimento do texto e é adequada para cenários de alta simultaneidade. O projeto fornece exemplos de pseudocódigo para ilustrar todo o processo de carregamento do léxico, criação do combinador e verificação do texto.
Essa resposta foi extraída do artigoSensitive-lexicon: um dicionário de sinônimos continuamente atualizado para palavras sensíveis em chinêsO