Mit dem Tool OCRmyPDF lässt sich dieses Problem perfekt lösen. Das Werkzeug fügt OCR-Textebene zu gescannten PDF durch folgende Schritte:
- Installation von OCRmyPDF und seiner Abhängigkeiten (z. B. Tesseract OCR Engine)
- Verwendung grundlegender Befehle
ocrmypdf input.pdf output.pdf
durchlaufen - Die resultierende Ausgabe.pdf behält das ursprüngliche Layout mit durchsuchbaren, kopierbaren Textebenen bei.
- Bei mehrsprachigen Dokumenten wird die
-l
zur Angabe der Sprache (z. B.-l eng+chi_sim
(Verarbeitung gemischter chinesischer und englischer Dokumente)
Diese Methode löst nicht nur das Problem der Textsuche und des Kopierens, sondern bewahrt auch die Qualität des Originaldokuments, was für verschiedene Szenarien der Dokumentendigitalisierung geeignet ist.
Diese Antwort stammt aus dem ArtikelOCRmyPDF: gescanntes PDF in durchsuchbaren Text des Open-Source-ToolsDie