A redução da taxa de falsos positivos requer otimização nos níveis algorítmico e operacional:
- sensível ao contextoAnálise do contexto em conjunto com técnicas de PNL, por exemplo, excluindo combinações de palavras sensíveis em substantivos por meio de anotação lexical (por exemplo, "Beijing" em "Peking University").
- Mecanismo de lista brancaCriar uma lista branca de palavras comuns classificadas incorretamente (por exemplo, nomes de marcas, nomes de lugares) que são priorizadas para correspondência com o léxico sensível.
- filtragem hierárquicaAtivar a correspondência estrita para palavras de alto risco, como categorias políticas, e permitir o espaçamento parcial de caracteres para palavras de baixo risco (como o termo regular
色.{0,2}情
).
Recomenda-se analisar regularmente os registros de erros judiciais e ajustar o tesauro e as regras de forma direcionada para equilibrar a segurança e a experiência do usuário.
Essa resposta foi extraída do artigoSensitive-lexicon: um dicionário de sinônimos continuamente atualizado para palavras sensíveis em chinêsO