O OCRmyPDF suporta reconhecimento de texto em vários idiomas e você pode processar documentos em vários idiomas seguindo as etapas abaixo:
- fazer uso de
-l
especifica o código do idioma, por exemplo-l eng+chi_sim
Usado para processar PDFs contendo inglês e chinês. - Instale o pacote de idiomas Tesseract correspondente, por exemplo, o pacote de idiomas chinês no Linux:
sudo apt install tesseract-ocr-chi-sim
- O código da linguagem pode ser encontrado na documentação do Tesseract.
O OCRmyPDF suporta o reconhecimento de texto em 39 idiomas, o que é adequado para lidar com documentos digitalizados com uma mistura de vários idiomas, como contratos mistos de chinês e inglês ou trabalhos acadêmicos.
Essa resposta foi extraída do artigoOCRmyPDF: PDF digitalizado em texto pesquisável da ferramenta de código abertoO