Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite

Sensitive-lexicon ist ein quelloffenes chinesisches Thesaurus-Projekt, das eine Liste von zehntausenden von Wörtern in einer einfachen Textdatei bereitstellt. Das Projekt soll Entwicklern und Content-Managern helfen, schnell eine grundlegende Textüberprüfungsfunktion in ihre Anwendungen oder Websites zu integrieren. Der Thesaurus deckt eine Reihe von sensiblen Bereichen wie Politik, Pornografie, Gewalt usw. ab und wird durch die Kraft der Gemeinschaft auf dem neuesten Stand gehalten, um sich an die sich ständig verändernde Online-Sprachumgebung anzupassen. Aufgrund seines einfachen Textformats kann der Thesaurus leicht von einer Vielzahl von Programmiersprachen und Frameworks gelesen und verwendet werden. Entwickler können verschiedene Algorithmen wie DFA, Trie-Bäume oder reguläre Ausdrücke kombinieren, um die Filterung und Überprüfung von Textinhalten entsprechend ihren geschäftlichen Anforderungen umzusetzen.

Funktionsliste

  • Umfassender WortschatzDer Thesaurus enthält Zehntausende von sensiblen Wörtern, die eine Reihe von häufig vorkommenden sensiblen Inhalten abdecken, darunter Politik, Gewalt und Pornografie.
  • Laufende Aktualisierungen der GemeinschaftDas Projekt ist auf die Beiträge der Community (Issues und Pull Requests) angewiesen, um ständig neue Wörter hinzuzufügen und Fehler zu beheben, damit der Thesaurus mit den Veränderungen in der Internet-Terminologie Schritt hält und seine Gültigkeit bewahrt.
  • Leicht zu integrieren: Klartext wird bereitgestellt (.txt), ein Format, das so vielseitig ist, dass Entwickler es problemlos in jede Programmiersprache oder jedes Projekt-Framework integrieren können, ohne einen komplexen Parsing-Prozess durchführen zu müssen.
  • Mehrere ImplementierungenEntwickler können flexibel verschiedene Algorithmen zum Abgleich von Zeichenketten wählen, um diesen Thesaurus je nach spezifischen Geschäftsszenarien und Leistungsanforderungen zu nutzen, z. B. DFA (Deterministic Finite Automata), Trie Tree oder den Abgleich regulärer Ausdrücke.
  • Offenheit und TransparenzAls Open-Source-Projekt sind der Inhalt und die Aktualisierungshistorie des Thesaurus öffentlich zugänglich und können von den Benutzern überprüft, bearbeitet und frei heruntergeladen werden.

Hilfe verwenden

Das Projekt selbst ist eher eine Sammlung von Thesaurusdateien als ein Stück Software, das direkt ausgeführt werden kann, es gibt also keinen traditionellen "Installationsprozess". Im Kern stellt es die Daten zur Verfügung, und die Entwickler müssen ihren eigenen Code schreiben, um die Daten zu lesen und zu verwenden.

Wie man den Thesaurus erhält und benutzt

  1. Thesaurus-Datei herunterladen
    Der einfachste Weg, um Aktualisierungen zu erhalten, besteht darin, das gesamte Repository über Git zu klonen. Öffnen Sie Ihr Terminal oder Kommandozeilenprogramm und führen Sie den folgenden Befehl aus:

    git clone https://github.com/konsheng/Sensitive-lexicon.git
    

    Wenn Sie mit Git nicht vertraut sind, können Sie das gesamte Projekt auch als ZIP-Datei herunterladen, indem Sie auf der GitHub-Projekthomepage auf die Schaltfläche "Code" klicken und "ZIP herunterladen" auswählen.

  2. Auswahl der richtigen Thesaurusdatei
    In den heruntergeladenen Projektdateien sind die Kerndateien sensitive-lexicon.txtEr enthält alle Arten von sensiblen Wörtern. Das Projekt kann auch separate Thesaurusdateien bereitstellen, die nach verschiedenen sensiblen Bereichen kategorisiert sind, so dass Sie je nach Bedarf alle Wörter oder nur bestimmte Kategorien von Wörtern laden können.
  3. Integration in den Code
    Der wichtigste Schritt bei der Integration eines Thesaurus besteht darin, in Ihrem Programm die sensitive-lexicon.txt Datei und lädt jede Zeile (d.h. ein sensitives Wort) darin in eine Datenstruktur (z.B. eine Liste, Sammlung oder einen Knoten eines Trie-Baums).

    Grundlegende Implementierung: Verwendung regulärer Ausdrücke
    Dies ist eine einfache, aber weniger effiziente Methode für Szenarien, in denen die Textmenge nicht groß ist oder die Leistungsanforderungen nicht hoch sind.

    • umziehen::
      1. durch (eine Lücke) sensitive-lexicon.txt Lesen Sie alle sensiblen Wörter Zeile für Zeile in der
      2. Das Splitten dieser Wörter in ein großes reguläres Ausdrucksmuster mit der | (oder) Trennung. Wenn der Thesaurus zum Beispiel "Wort eins" und "Wort zwei" enthält, lautet das Muster (词语一|词语二).
      3. Verwenden Sie dieses Muster eines regulären Ausdrucks, um den zu überprüfenden Text zu finden.

    Effiziente Implementierung: mit DFA (deterministische endliche Automaten) oder Trie-Bäumen
    Für Produktionsumgebungen, in denen große Textmengen und eine hohe Prüfungshäufigkeit zu bewältigen sind, ist die Verwendung von DFA- oder Trie-Bäumen die bessere Wahl. Diese Arten von Algorithmen haben eine sehr hohe Anpassungseffizienz, und die Zeitkomplexität ist proportional zur Länge des abzugleichenden Textes und unabhängig von der Größe des Thesaurus.

    • umziehen::
      1. Aufbau von Datenstrukturen: Lesen Sie zu Beginn Ihrer Bewerbung die sensitive-lexicon.txt Viele Programmiersprachen verfügen über fertige Bibliotheken zur Implementierung beider Datenstrukturen, so dass Sie nicht bei Null anfangen müssen.
      2. ein Spiel durchführenDer zu überprüfende Text wird zum Abgleich in einen konstruierten Trie-Baum oder DFA eingegeben.
      3. ErgebnisDer Algorithmus gibt zurück, ob sensible Wörter im Text vorhanden sind und wo sie sich befinden. Sie können wählen, ob sensible Wörter durch Sternchen ersetzt werden sollen, je nach Ihren geschäftlichen Anforderungen *oder sich einfach weigern, Inhalte zu veröffentlichen, die sensible Wörter enthalten.

    Beispiel (Pseudocode)

    # 伪代码,展示基本逻辑
    # 1. 加载词库
    sensitive_words = set()
    with open("sensitive-lexicon.txt", "r", encoding="utf-8") as f:
    for line in f:
    sensitive_words.add(line.strip())
    # 2. 构建高效的匹配器(如此处使用第三方Trie库)
    from some_trie_library import Trie
    trie = Trie()
    for word in sensitive_words:
    trie.add_word(word)
    # 3. 检查文本
    def check_text(text):
    found_words = trie.search_all(text)
    if found_words:
    print(f"发现敏感词: {found_words}")
    return False # 包含敏感词
    return True # 文本安全
    # 4. 应用
    user_input = "这是一段用户输入的测试文本。"
    is_safe = check_text(user_input)
    if is_safe:
    print("内容发布成功。")
    else:
    print("内容包含不当信息,发布失败。")
    

caveat

  • Einhaltung der VorschriftenWenn Sie diesen Thesaurus zum Filtern von Inhalten verwenden, achten Sie darauf, dass Sie die einschlägigen Gesetze und Vorschriften Ihres Landes oder Ihrer Region einhalten.
  • inhaltliche FrageDie Kriterien für die Beurteilung sensibler Wörter werden weitgehend von der Kultur, der Geografie und spezifischen Kontexten beeinflusst. Die Entwickler müssen den Thesaurus mit ihren eigenen Geschäftsszenarien in praktischen Anwendungen bewerten und anpassen, um zu vermeiden, dass versehentlich normale Inhalte verletzt werden.
  • Überlegungen zur LeistungFür große, stark konkurrierende Anwendungen ist es wichtig, einen leistungsstarken Abgleichsalgorithmus (z. B. DFA) zu wählen, um zu vermeiden, dass die Überprüfung von Inhalten zu einem Engpass im System wird.

Anwendungsszenario

  1. Gemeinschaftsforen und soziale Medien
    Es wird verwendet, um automatisch die Beiträge, Kommentare und privaten Nachrichten von Nutzern zu überprüfen und unangemessene Äußerungen wie Schimpfwörter, Pornografie, Werbung und andere unangemessene Äußerungen herauszufiltern, um eine gesunde Atmosphäre in der Gemeinschaft und eine saubere Netzwerkumgebung zu erhalten.
  2. Online-Spiel
    Es wird verwendet, um Chat-Inhalte im Spiel, Charakternamen, Gildennamen usw. zu filtern, um Spieler daran zu hindern, unzivilisierte oder illegale Wörter zu verwenden, um das Spielerlebnis zu verbessern und gesetzliche Vorschriften einzuhalten.
  3. Plattform zur Verbreitung von Inhalten
    Blogs, Nachrichtenseiten, Videoplattformen usw. können diesen Thesaurus für ein erstes Screening der von Nutzern hochgeladenen Inhalte (z. B. Titel, Beschreibungen, Kommentare, Pop-ups) verwenden, um den Druck der manuellen Überprüfung zu verringern.
  4. Pädagogische Produkte und Produkte für Kinder
    Es kann verwendet werden, um unangemessene Inhalte wie Gewalt und Pornografie in Anwendungen oder Websites, die sich an Minderjährige richten, zu blockieren und so junge Menschen vor schädlichen Informationen zu schützen.
  5. Unternehmensinterne Kommunikation
    Es wird zur Überwachung des internen Chat-Tools oder des E-Mail-Systems des Unternehmens verwendet, um das Durchsickern sensibler Daten oder die Verbreitung unangemessener Bemerkungen zu verhindern und die Informationssicherheit zu gewährleisten.

QA

  1. Ist dieses Projekt nur eine Thesaurus-Datei? Gibt es eine API, die direkt aufgerufen werden kann?
    Ja, der Kern des Projekts selbst ist eine Thesaurusdatei im reinen Textformat (sensitive-lexicon.txt). Es bietet keinen direkten Aufruf der API oder vorgefertigter Softwaredienste. Die Benutzer müssen ihren eigenen Code schreiben, um die Datei zu lesen und eine spezifische Textfilterlogik zu implementieren.
  2. Wie oft wird dieser Thesaurus aktualisiert?
    Das Projekt ist ein von der Gemeinschaft betriebenes Open-Source-Projekt ohne festen Aktualisierungszyklus. Es ist für seine Aktualisierungen auf die Beiträge der Community-Mitglieder angewiesen. Der Thesaurus wird aktualisiert, wenn jemand ein neues Vokabular einreicht (per Issue oder Pull Request) und es wird vom Projektbetreuer zusammengeführt.
  3. Wie kann ich neue sensible Wörter zu diesem Projekt beitragen?
    Sie können einen neuen "Issue" auf Ihrer GitHub-Projektseite erstellen, in dem Sie die Wörter auflisten, die Sie hinzufügen möchten. Eine genauere Vorgehensweise ist es, das Projekt zu "forken", indem Sie Ihre eigene Kopie der sensitive-lexicon.txt Datei, und starten Sie dann einen "Pull Request" an das ursprüngliche Projekt und warten Sie darauf, dass der Maintainer die Zusammenführung überprüft.
  4. Führt die Verwendung dieses Thesaurus dazu, dass normale Wörter falsch gefiltert werden?
    Möglich. Da es sich bei dem Thesaurus um eine direkte String-Übereinstimmung handelt, kann es zu "falsch-positiven" Ergebnissen kommen (z. B. kann "Computer" durch zu weit gefasste Regeln gefiltert werden, weil es "computing" enthält). (z. B. kann "Computer" von einigen zu weit gefassten Regeln gefiltert werden, weil er "computing" enthält). In der Praxis empfiehlt es sich daher, den Thesaurus an die geschäftlichen Anforderungen anzupassen und ihn mit intelligenteren Algorithmen (z. B. natürliche Sprachverarbeitung) zu kombinieren, um den Kontext zu verstehen und so die Genauigkeit zu verbessern.
0Lesezeichen
0Gelobt

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

zurück zum Anfang

de_DEDeutsch