Datenexportfunktionen für maschinelles Lernen
Das vielseitige OCR-Programm verwendet einen zweistufigen Datenverarbeitungsprozess, bei dem das Originaldokument zunächst in Text-/Formel-/Tabellen-/Diagrammelemente zerlegt und dann durch semantische Analyse strukturierte Daten erzeugt werden. Das Ausgabeformat ist für das KI-Training optimiert: Das JSON-Format enthält vollständige Elementkoordinaten, Typbezeichnungen und semantischen Kontext; das Markdown-Format erhält die Lesbarkeit akademischer Dokumente. Typische Beispiele sind die Konvertierung von Diagrammen aus EJU-Biologiepapieren in Trainingsdaten mit Annotationen wie "Mikrografien, die Meiose-Stadien zeigen" oder das Parsen mathematischer Formeln in duale Darstellungen, die sowohl LaTeX-Code als auch Beschreibungen von "Ungleichungen mit Trigonometrie" enthalten. Das Tool unterstützt auch die Stapelverarbeitung. Das Tool unterstützt auch die Stapelverarbeitung, wobei mit dem Parameter -input_dir eine ganze Bibliothek von Forschungsarbeiten auf einmal in einen strukturierten Datensatz umgewandelt wird.
Diese Antwort stammt aus dem ArtikelVOP: OCR-Tool zum Extrahieren komplexer Diagramme und mathematischer FormelnDie
































