O OCRmyPDF suporta o reconhecimento de texto em até 39 idiomas, incluindo inglês, alemão, chinês e outros idiomas amplamente utilizados. Os usuários podem especificar o código do idioma por meio do parâmetro -l para reconhecer o texto em um idioma específico, por exemplo, chi_sim para reconhecer o chinês simplificado. Deve-se observar que o uso do reconhecimento em outros idiomas que não o inglês requer a instalação adicional do pacote de idioma Tesseract correspondente, por exemplo, no Ubuntu, é possível instalar o pacote de idioma chinês simplificado por meio do comando 'sudo apt install tesseract-ocr-chi-sim' no Ubuntu.
Essa resposta foi extraída do artigoOCRmyPDF: PDF digitalizado em texto pesquisável da ferramenta de código abertoO