注目すべきは3点:
- 法令遵守中国のサイバーセキュリティ法の機密情報に対する要件など、各地域のコンテンツ審査規制の対象となる。
- 文脈上の誤算純粋な文字列マッチングは、正常なコンテンツに害を与える可能性がある(例えば、"computer "は "computing "を含む)ので、シソーラスを調整するか、ビジネスと連携してNLP技術を導入することを推奨する。
- パフォーマンス最適化監査がシステムのボトルネックになるのを避けるために、DFAのような効率的なアルゴリズムを選択する必要があります。
特にこの記事では、シソーラスはビジネスシナリオと連動して二次加工される必要があり、直接コピーされるものではないことを強調している。
この答えは記事から得たものである。Sensitive-lexicon: 継続的に更新される中国語敏感語シソーラスについて