OCRmyPDF unterstützt die Texterkennung in bis zu 39 Sprachen, darunter Englisch, Deutsch, Chinesisch und andere weit verbreitete Sprachen. Benutzer können den Sprachcode über den Parameter -l angeben, um Text in einer bestimmten Sprache zu erkennen, z. B. chi_sim, um vereinfachtes Chinesisch zu erkennen. Es ist zu beachten, dass die Verwendung einer nicht-englischen Erkennung die zusätzliche Installation des entsprechenden Tesseract-Sprachpakets erfordert, z. B. können Sie unter Ubuntu das Sprachpaket für vereinfachtes Chinesisch über den Befehl "sudo apt install tesseract-ocr-chi-sim' auf Ubuntu installieren.
Diese Antwort stammt aus dem ArtikelOCRmyPDF: gescanntes PDF in durchsuchbaren Text des Open-Source-ToolsDie