获取词库有两种方式:
- 通过 Git 克隆仓库:执行命令
git clone https://github.com/konsheng/Sensitive-lexicon.git
- 直接下载 ZIP 压缩包:在 GitHub 项目主页点击 “Code” 按钮选择 “Download ZIP”
使用步骤包括:
- 选择核心文件
sensitive-lexicon.txt
或按领域分类的独立词库 - 在代码中读取文件内容,将敏感词加载到列表、集合或Trie树等数据结构中
- 根据业务需求选择正则表达式、DFA或Trie树等算法实现文本匹配
本答案来源于文章《Sensitive-lexicon:一个持续更新的中文敏感词词库》