Das System identifiziert sechs Kategorien von Inhaltselementen in einem Dokument: reguläre Textbereiche, Datentabellen, mathematische Formeln, Bildillustrationen, Kopf- und Fußzeilen und spezielle Symbole. Jedes Element wird nicht nur klassifiziert und beschriftet, sondern es werden auch pixelgenaue Bounding-Box-Koordinaten (bbox) ausgegeben, deren Erkennungsgenauigkeit bei komplexen Dokumenten wie akademischen Abhandlungen 90% übersteigt. Für tabellarische Inhalte generiert das System W3C-konformen HTML-Code; mathematische Formeln werden in LaTeX-Syntax konvertiert, um die Integrität und Bearbeitbarkeit der Formelstruktur zu erhalten. Diese feinkörnige Parsing-Fähigkeit macht es besonders geeignet für die Bearbeitung wissenschaftlicher Forschungsliteratur und technischer Dokumente.
Diese Antwort stammt aus dem Artikeldots.ocr: ein vereinheitlichtes visuell-linguistisches Modell für die Analyse von mehrsprachigem DokumentenlayoutDie