OCRmyPDF ist ein Open-Source-Werkzeug auf Python-Basis, dessen Hauptfunktion darin besteht, gescannten PDF-Dateien über die Tesseract OCR-Engine eine durchsuchbare, kopierbare Textebene hinzuzufügen. OCRmyPDF unterstützt die mehrsprachige Erkennung für Linux, Windows, macOS und andere Betriebssysteme und kann plattformübergreifend über das Docker-Image bereitgestellt werden.
Diese Antwort stammt aus dem ArtikelOCRmyPDF: gescanntes PDF in durchsuchbaren Text des Open-Source-ToolsDie