中国語のセンシティブコンテンツの高速フィルタリングを実現するには、以下の手順でSensitive-lexiconプロジェクトを利用することができます:
- 類語辞典のダウンロードGit経由でリポジトリをクローンするか、ZIPファイルを直接ダウンロードして入手してください!
sensitive-lexicon.txt
語彙ファイル。 - マッチング・アルゴリズムの選択軽量なアプリケーションの場合、正規表現を直接使用して、すべての重要な単語を単一のパターン(たとえば
(词1|词2)
)、マッチング効率は低いが実装は簡単である。高頻度のシナリオでは、DFAまたはトライツリー・アルゴリズムが推奨される。 - 統合コードシソーラスファイルをメモリにロードする(例:Pythonの
set
(構造)、アルゴリズムと組み合わせて、テキストマッチングロジックを実現する。プロジェクトの擬似コードは、例の記事を参照することができます、サードパーティのTrieライブラリを呼び出す効率が良いです。
注:この方法では、シソーラスの更新を定期的に同期させ、ビジネスシナリオに合わせて誤判定ルールを調整する必要がある。
この答えは記事から得たものである。Sensitive-lexicon: 継続的に更新される中国語敏感語シソーラスについて