As etapas para executar o OCRmyPDF usando o Docker são as seguintes:
- Certifique-se de que o Docker esteja instalado e em execução:
docker run hello-world
- Obtenha a imagem oficial do OCRmyPDF:
docker pull jbarlow83/ocrmypdf
- (Opcional) Marca o espelho com um nome conveniente:
docker tag jbarlow83/ocrmypdf ocrmypdf
- Execute o processamento de OCR:
docker run --rm -v $(pwd):/data ocrmypdf /data/input.pdf /data/output.pdf
Esse comando irá:
- Definir o diretório atual (
$(pwd)
) é montado no contêiner/data
diretório (no disco rígido do computador) - Processamento de arquivos input.pdf no diretório atual
- Resultados de saída para output.pdf no diretório atual
- Exclui automaticamente os contêineres temporários após a execução (
--rm
parâmetros)
A abordagem do Docker é particularmente adequada para cenários em que não há ambiente local ou em que é necessário o uso entre plataformas.
Essa resposta foi extraída do artigoOCRmyPDF: PDF digitalizado em texto pesquisável da ferramenta de código abertoO