Há duas maneiras de obter o dicionário de sinônimos:
- Clonagem de um repositório via Git: execute o comando
git clone https://github.com/konsheng/Sensitive-lexicon.git
- Baixe o arquivo ZIP diretamente: clique no botão "Code" (Código) na página inicial do projeto GitHub e selecione "Download ZIP" (Baixar ZIP).
As etapas a serem usadas incluem:
- Seleção do documento principal
sensitive-lexicon.txt
ou separar o tesauro por domínio - Leia o conteúdo do arquivo em código e carregue as palavras sensíveis em uma estrutura de dados, como uma lista, coleção ou árvore tripla.
- Selecione algoritmos de expressão regular, DFA ou árvore Trie para correspondência de texto de acordo com os requisitos comerciais.
Essa resposta foi extraída do artigoSensitive-lexicon: um dicionário de sinônimos continuamente atualizado para palavras sensíveis em chinêsO