Kontextabhängige Mechanismen zur Vereinheitlichung von Entitäten
OntoCast löst das Problem der Mehrdeutigkeit von Entitätsbezeichnungen mit Hilfe eines BERT-basierten Vektorraummodells. Die technische Umsetzung umfasst drei Kernpunkte: 1) Aufbau einer kontextuellen Merkmalsbibliothek zur Erfassung der semantischen Umgebung, in der Entitäten auftreten; 2) Implementierung eines aufmerksamkeitsbasierten Disambiguierungsalgorithmus zur Unterscheidung zwischen der Kategorie "Apple" und der Kategorie "Obst"; 3) Erstellung einer dokumentenübergreifenden Entitätszuordnung, z. B. zur automatischen Korrelation der Ausdrücke verschiedener Autoren von "Deep Learning" in einer Sammlung akademischer Arbeiten. Wenn "Apple" erkannt wird, kann zwischen Technologieunternehmen und Obstkategorien unterschieden werden; 3) Erstellung einer dokumentenübergreifenden Entitätszuordnung, z. B. automatische Korrelation verschiedener Autorenausdrücke von "Deep Learning" in einer Sammlung von akademischen Abhandlungen. Die Testdaten zeigen, dass die Technologie die Erkennungsgenauigkeit der Entitäten in der medizinischen Literatur von 82% auf 96% verbessert.
Diese Antwort stammt aus dem ArtikelOntoCast: ein intelligenter Rahmen für die Extraktion von semantischen Tripeln aus DokumentenDie































