Die wichtigsten Schritte für die sprachübergreifende Integration von Sensitive-lexicon sind folgende:
- Universal Thesaurus FormatUnabhängig von der Verwendung von Java/PHP/Go, etc. lesen alle direkt UTF-8 kodierte
sensitive-lexicon.txt
Textdatei, zeilenweise als Array geparst. - Auswahl der Algorithmen für die SprachanpassungJava-Empfehlungen
org.ahocorasick.trie
Bibliotheksimplementierung von DFA; verfügbar für PHPphptrie
Erweiterungen; Standardbibliothek der Sprache Gostrings.Contains
Dies kann mit der Map-Struktur schnell geschehen. - Gepackte AllzweckmoduleKapselung der Thesaurus-Lade- und Abgleichlogik in unabhängigen Diensten (z. B. REST API), die von verschiedenen Geschäftssystemen über Schnittstellen aufgerufen werden.
Diese Lösung kann in weniger als 1 Stunde in die Basis integriert werden und hat einen geringeren Leistungsverlust als 5%.
Diese Antwort stammt aus dem ArtikelSensitiv-Lexikon: ein ständig aktualisierter Thesaurus für chinesische sensible WörterDie