Para obter uma filtragem rápida do conteúdo sensível chinês, você pode utilizar o projeto Sensitive-lexicon seguindo as etapas abaixo:
- Baixar o ThesaurusObtenha-o clonando o repositório via Git ou baixando o arquivo ZIP diretamente!
sensitive-lexicon.txt
Arquivo de vocabulário. - Seleção de algoritmos de correspondênciaPara aplicativos leves, as expressões regulares podem ser usadas diretamente para juntar todas as palavras sensíveis em um único padrão (como
(词1|词2)
), a eficiência da correspondência é baixa, mas simples de implementar; para cenários de alta frequência, recomenda-se o uso de algoritmos DFA ou de árvore Trie. - código integradoCarregar o arquivo de dicionário de sinônimos na memória (por exemplo, o comando
set
(estrutura), combinada com o algoritmo para obter a lógica de correspondência de texto. O pseudocódigo do projeto pode ser consultado no artigo do exemplo; a eficiência da biblioteca Trie de terceiros é melhor.
Observação: esse método exige a sincronização regular das atualizações do tesauro e o ajuste das regras de avaliação incorreta para corresponder ao cenário comercial.
Essa resposta foi extraída do artigoSensitive-lexicon: um dicionário de sinônimos continuamente atualizado para palavras sensíveis em chinêsO