Wenn Sie mit mehrsprachigen PDF-Dokumenten arbeiten, müssen Sie die-lgibt die Sprachcodekombination an:
- Grundlegendes Befehlsformat:
ocrmypdf -l 语言代码1+语言代码2 input.pdf output.pdf - Zum Beispiel die Bearbeitung gemischter chinesischer und englischer Dokumente:
ocrmypdf -l eng+chi_sim input.pdf output.pdf
Vorbehalte:
- Die entsprechenden Tesseract-Sprachpakete müssen vorher installiert werden, z.B. für Chinesisch müssen Sie das
tesseract-ocr-chi-sim - Der Sprachcode ist in der Tesseract-Dokumentation zu finden.
- Empfohlene Verwendung
--verbose 2Identifikationsergebnisse der Parametervalidierung - Für komplexe Layout-Dokumente müssen Sie möglicherweise Parameter anpassen oder Plug-ins verwenden.
Diese Antwort stammt aus dem ArtikelOCRmyPDF: gescanntes PDF in durchsuchbaren Text des Open-Source-ToolsDie































