Best-Practice-Lösung für den Umgang mit PDFs mit gemischtem Inhalt:
- Auswahl der Parameter: Verwendung
--skip-text
Vermeiden Sie die doppelte Bearbeitung von bestehenden Textabschnitten - Bild-Optimierung: Hinzufügen
--optimize 1
Komprimiert Bilder ohne Verschlechterung der OCR-Qualität - selektive BehandlungSeparate Verarbeitung von reinen Bildseiten vor der Kombination von Dokumenten
- Beibehaltung der Qualität: Zusammenarbeit
--pdf-renderer sandwich
Behält die ursprüngliche Bildqualität bei - ReparaturfunktionAktivieren, wenn beschädigte Dateien gefunden werden
--force-ocr
Zwangsbehandlung
Bei besonders komplexen gemischten Dokumenten empfiehlt es sich, diese in mehreren Schritten zu verarbeiten: zuerst die Klartextseiten extrahieren, dann die Bildseiten verarbeiten und schließlich die Ergebnisse zusammenführen. Dies kann geschehen durch--verbose 3
Überwachen Sie jeden Verarbeitungsschritt.
Diese Antwort stammt aus dem ArtikelOCRmyPDF: gescanntes PDF in durchsuchbaren Text des Open-Source-ToolsDie