OCRmyPDFは、英語、ドイツ語、中国語、その他広く使われている言語を含む、最大39言語のテキスト認識に対応しています。ユーザーは、特定の言語のテキストを認識するために、-lパラメーターを通して言語コードを指定することができます。例えば、簡体字中国語を認識するにはchi_simを指定します。英語以外の認識を使用するには、対応するTesseract言語パッケージを追加でインストールする必要があることに注意する必要があります。tesseract-ocr-chi-sim」コマンドでインストールできます。
この答えは記事から得たものである。OCRmyPDF: スキャンしたPDFをオープンソースツールの検索可能なテキストへについて