Für Entwickler gibt es zwei typische Integrationsansätze:
- Grundlegende MethodenSplicing sensibler Wörter in Muster (z. B. "Wort 1|Wort 2") durch reguläre Ausdrücke, geeignet für Szenarien mit geringer Leistung.
- Effiziente MethodenBei der Verwendung von DFA- oder Trie-Baum-Algorithmen wird das Lexikon zunächst in eine Datenstruktur geladen (z. B. die Trie-Bibliothek von Python) und dann der Text abgeglichen. Die letztgenannte Zeitkomplexität hängt nur von der Länge des Textes ab und ist für Szenarien mit hoher Parallelität geeignet. Das Projekt bietet Pseudocode-Beispiele, um den gesamten Prozess des Ladens des Lexikons, des Aufbaus des Matchers und der Überprüfung des Textes zu veranschaulichen.
Diese Antwort stammt aus dem ArtikelSensitiv-Lexikon: ein ständig aktualisierter Thesaurus für chinesische sensible WörterDie