シソーラスを入手するには2つの方法がある:
- Gitを使ってリポジトリをクローンする:コマンドを実行する
git clone https://github.com/konsheng/Sensitive-lexicon.git
- ZIPアーカイブを直接ダウンロードする:GitHubプロジェクトのホームページから「Code」ボタンをクリックし、「Download ZIP」を選択する。
使用手順は以下の通り:
- コア・ドキュメントの選択
sensitive-lexicon.txt
またはドメインごとにシソーラスを分ける - ファイルの内容をコードで読み取り、センシティブワードをリスト、コレクション、トライツリーなどのデータ構造にロードする。
- ビジネス要件に応じて、テキスト・マッチングに正規表現、DFA、トライツリー・アルゴリズムを選択。
この答えは記事から得たものである。Sensitive-lexicon: 継続的に更新される中国語敏感語シソーラスについて