Sensitive-lexiconは開発者に柔軟なアルゴリズム選択を提供する。性能要件に応じて、基本的な正規表現マッチングか、効率的なDFA/トライツリー実装かを選択できる。正規表現はテキスト量が少ないシナリオに適しており、DFAとトライツリーは並行性の高い生産環境に適しています。
正規表現はシンプルで実装しやすいが、性能は低い。DFAアルゴリズムのマッチング時間は、シソーラスのサイズに関係なく、マッチングするテキストの長さに比例する。プロジェクト・ドキュメントでは、アルゴリズムのガイダンスを提供しているが、具体的な実装を制限していないため、開発者はビジネス・シナリオに応じて自由に最適化できる。
この答えは記事から得たものである。Sensitive-lexicon: 継続的に更新される中国語敏感語シソーラスについて