誤検出率を下げるには、アルゴリズムと運用の両レベルで最適化を図る必要がある:
- コンテクストセンシティブ例えば、語彙アノテーション(例えば、'北京大学'の'北京')により、名詞の敏感な単語の組み合わせを除外する。
- ホワイトリストの仕組み一般的な誤分類単語(ブランド名、地名など)のホワイトリストを作成し、高感度語彙よりも優先的にマッチングさせる。
- 階層濾過政治カテゴリのようなリスクの高い単語には厳格なマッチングを可能にし、リスクの低い単語には部分的な文字間隔を許可する。
色.{0,2}情
).
誤審ログを定期的に分析し、セキュリティとユーザーエクスペリエンスのバランスを取るために、的を絞った方法でシソーラスとルールを調整することをお勧めします。
この答えは記事から得たものである。Sensitive-lexicon: 継続的に更新される中国語敏感語シソーラスについて