OCRmyPDF unterstützt die Erkennung mehrsprachiger Texte, und Sie können mehrsprachige Dokumente verarbeiten, indem Sie die folgenden Schritte ausführen:
- ausnutzen
-l
Option gibt den Sprachcode an, z. B.-l eng+chi_sim
Wird verwendet, um PDFs zu verarbeiten, die sowohl Englisch als auch Chinesisch enthalten. - Installieren Sie das entsprechende Tesseract-Sprachpaket, z. B. das chinesische Sprachpaket unter Linux:
sudo apt install tesseract-ocr-chi-sim
- Der Sprachcode ist in der Tesseract-Dokumentation zu finden.
OCRmyPDF unterstützt die Texterkennung in 39 Sprachen, was sich für die Bearbeitung von gescannten Dokumenten mit mehreren Sprachen eignet, z. B. für gemischte chinesische und englische Verträge oder wissenschaftliche Arbeiten.
Diese Antwort stammt aus dem ArtikelOCRmyPDF: gescanntes PDF in durchsuchbaren Text des Open-Source-ToolsDie