Es gibt zwei Möglichkeiten, den Thesaurus zu erhalten:
- Klonen eines Repositorys über Git: Führen Sie den Befehl
git clone https://github.com/konsheng/Sensitive-lexicon.git
- Laden Sie das ZIP-Archiv direkt herunter: Klicken Sie auf der Homepage des GitHub-Projekts auf die Schaltfläche "Code" und wählen Sie "ZIP herunterladen".
Folgende Schritte sind zu beachten:
- Auswahl des Kerndokuments
sensitive-lexicon.txt
oder separater Thesaurus nach Bereich - Lesen des Inhalts der Datei im Code und Laden der sensiblen Wörter in eine Datenstruktur wie eine Liste, Sammlung oder einen Trie-Baum
- Auswahl von regulären Ausdrücken, DFA- oder Trie-Baum-Algorithmen für den Textabgleich entsprechend den Geschäftsanforderungen.
Diese Antwort stammt aus dem ArtikelSensitiv-Lexikon: ein ständig aktualisierter Thesaurus für chinesische sensible WörterDie