Das Tool verwendet einen mehrstufigen Algorithmus zur Bestimmung der Lesereihenfolge:
- Elementare SortierungParsing der zugrundeliegenden Dokumentenflussreihenfolge basierend auf der Poppler-Bibliothek
- Typ-Schichtung::
- Kopfzeilenelemente werden nach Priorität geordnet (unter Beibehaltung der ursprünglichen internen Reihenfolge)
- Der Hauptinhalt (Text/Tabellen usw.) wird entsprechend den visuellen Lesegewohnheiten neu geordnet
- Obligatorische Angabe von Fußzeilen und Fußnoten
- visuelle KorrekturFür Nicht-Text-Elemente (z. B. Bilder) wird die Position bestimmt, indem das nächstgelegene Text-Element damit verknüpft wird.
Optimierung der TechnologieLösung gängiger PDF-Probleme wie mehrspaltiges Layout und fließende Objekte durch visuelle Gitteranalyse (VGT-Kernfunktion). Bei gescannten Dokumenten wird nach Abschluss der OCR eine sekundäre Layoutanalyse durchgeführt, um die sequenzielle Genauigkeit zu verbessern.
Praktische BeratungWenn Anomalien in der Reihenfolge gefunden werden, kann die Schnittstelle /visualize verwendet werden, um kommentierte PDFs für die manuelle Kalibrierung zu generieren oder um die Modellparameter für eine erneute Analyse anzupassen.
Diese Antwort stammt aus dem ArtikelAutomatisches Parsen von PDF-Inhalten und Extrahieren von Text und Tabellen von Open-Source-DienstenDie































