Um die Verarbeitungsgeschwindigkeit großer Dokumente zu optimieren, bietet OCRmyPDF die folgenden effektiven Lösungen:
- ausnutzen
--jobs
Parameter, um eine parallele Verarbeitung mit mehreren Kernen zu ermöglichen, z. B.--jobs 4
Beschleunigt mit 4 CPU-Kernen - Vorbehandlungsstufe kann hinzugefügt werden
--skip-text
Überspringen von Seiten, die bereits Text enthalten, um doppelte Verarbeitung zu vermeiden - .
--optimize 1
Vereinfachte Optimierungsschritte - Für Stapelverarbeitungsszenarien wird die Verwendung von Docker-Containern empfohlen, um die betriebliche Effizienz zu verbessern.
- Zur Optimierung des Arbeitsspeichers sollten Sie bei der Arbeit mit komplexen PDF-Dateien Folgendes beachten
--tesseract-timeout
Begrenzung der Verarbeitungszeit für einzelne Seiten
Mit diesen Methoden kann die Verarbeitungsgeschwindigkeit in der Regel um 200%-400% erhöht werden, je nach Hardwarekonfiguration.
Diese Antwort stammt aus dem ArtikelOCRmyPDF: gescanntes PDF in durchsuchbaren Text des Open-Source-ToolsDie