Hintergrund des Themas
Akademische Arbeiten verwenden in der Regel ein mehrspaltiges Layout, und herkömmliche OCR-Tools neigen dazu, Text in der falschen Reihenfolge zu erzeugen, was zu logischer Verwirrung im konvertierten Markdown-Inhalt führt.
Verschreibung
- Aktivieren des Layoutanalysemodus: Fügen Sie -reading-order=natural zur Laufzeit hinzu, um das Parsen in natürlicher Lesereihenfolge zu erzwingen.
- Kapitelmarkierungen verwendenFügen Sie PDFs vor der Konvertierung Lesezeichen hinzu (verfügbar über Adobe Acrobat), OCRFlux wird die Lesezeichenstruktur vorrangig berücksichtigen!
- Split-Column-VerarbeitungstechnikenFür die extreme Komplexität des Layouts, die erste Verwendung von pdfseparate in einspaltige PDFs aufgespalten und dann verarbeitet
- Nachbearbeitungs-KalibrierungDie generierte Markdown-Datei sollte Kommentare zur Seitenzahl der Quelle enthalten (enable-keep-page-number), um eine manuelle Korrektur zu ermöglichen.
Qualitätskontrolle
Es wird empfohlen, nach der Konvertierung zu prüfen: 1) ob die Formeln intakt bleiben 2) die Kontinuität der Referenznummerierung 3) die Übereinstimmung zwischen Diagrammen und Beschreibungstext. Wenn Sie Probleme feststellen, können Sie verschiedene Werte für die Parameter des Layout-Modus (streng/entspannt) ausprobieren.
Diese Antwort stammt aus dem ArtikelOCRFlux: Leichtes Tool zur Konvertierung von PDFs und Bildern in MarkdownDie