Sensitive-lexicon为开发者提供了算法选择的灵活性。根据性能需求,可选择基础的正则表达式匹配或高效的DFA/Trie树实现。正则表达式适用于文本量小的场景,而DFA和Trie树更适合高并发生产环境。
算法选择直接影响过滤效率:正则表达式简单易实现但性能较低;DFA算法的匹配时间复杂度与待匹配文本长度成正比,与词库大小无关;Trie树同样高效且支持前缀匹配。项目文档提供算法指导,但不限制具体实现,开发者可根据业务场景自由优化。
本答案来源于文章《Sensitive-lexicon:一个持续更新的中文敏感词词库》