As etapas a seguir são necessárias para instalar o OCRmyPDF em um sistema Linux (Ubuntu 22.04, por exemplo):
- Primeiro, certifique-se de que o Python 3 e o pip estejam instalados em seu sistema:
python3 --version
pip3 --version
- Instalar dependências:
sudo apt update
sudo apt install tesseract-ocr ghostscript python3-pip pngquant
- Instale o OCRmyPDF usando o pip:
pip3 install ocrmypdf
- Verifique a instalação:
ocrmypdf --version
Se o número da versão for exibido, a instalação foi bem-sucedida
Observação: Para processar documentos que não estejam em inglês, é necessário instalar os pacotes de idiomas correspondentes do Tesseract, como o chinês.tesseract-ocr-chi-sim
.
Essa resposta foi extraída do artigoOCRmyPDF: PDF digitalizado em texto pesquisável da ferramenta de código abertoO