Sensitive-lexiconを言語間で統合するための主なステップは以下の通り:
- ユニバーサル・シソーラス・フォーマットJava/PHP/Goなどを使っても、UTF-8でエンコードされたものを直接読むことができる。
sensitive-lexicon.txt
行ごとに配列としてパースされたテキストファイル。 - 言語適応アルゴリズムの選択Javaのおすすめ
org.ahocorasick.trie
DFAのライブラリ実装。phptrie
拡張機能; Go言語標準ライブラリstrings.Contains
これはMap構造で素早く行うことができる。 - パッケージ型汎用モジュールシソーラス・ローディングとマッチング・ロジックを独立したサービス(REST APIなど)にカプセル化し、異なるビジネス・システムからインターフェイスを通じて呼び出す。
このソリューションは1時間以内にベースに組み込むことができ、5%よりも性能低下が少ない。
この答えは記事から得たものである。Sensitive-lexicon: 継続的に更新される中国語敏感語シソーラスについて