Wenn Sie mit mehrsprachigen PDF-Dokumenten arbeiten, müssen Sie die-l
gibt die Sprachcodekombination an:
- Grundlegendes Befehlsformat:
ocrmypdf -l 语言代码1+语言代码2 input.pdf output.pdf
- Zum Beispiel die Bearbeitung gemischter chinesischer und englischer Dokumente:
ocrmypdf -l eng+chi_sim input.pdf output.pdf
Vorbehalte:
- Die entsprechenden Tesseract-Sprachpakete müssen vorher installiert werden, z.B. für Chinesisch müssen Sie das
tesseract-ocr-chi-sim
- Der Sprachcode ist in der Tesseract-Dokumentation zu finden.
- Empfohlene Verwendung
--verbose 2
Identifikationsergebnisse der Parametervalidierung - Für komplexe Layout-Dokumente müssen Sie möglicherweise Parameter anpassen oder Plug-ins verwenden.
Diese Antwort stammt aus dem ArtikelOCRmyPDF: gescanntes PDF in durchsuchbaren Text des Open-Source-ToolsDie