A ferramenta OCRmyPDF pode resolver esse problema perfeitamente. A ferramenta adiciona a camada de texto OCR ao PDF digitalizado seguindo as etapas abaixo:
- Instalação do OCRmyPDF e suas dependências (por exemplo, o mecanismo de OCR do Tesseract)
- Uso de comandos básicos
ocrmypdf input.pdf output.pdfpassar por - O output.pdf resultante manterá o layout original com camadas de texto pesquisáveis e copiáveis.
- Para documentos multilíngues, o
-lpara especificar o idioma (por exemplo-l eng+chi_sim(Processamento de documentos mistos em chinês e inglês)
Esse método não apenas resolve o problema de pesquisa e cópia de texto, mas também mantém a qualidade do documento original, o que é adequado para vários cenários de digitalização de documentos.
Essa resposta foi extraída do artigoOCRmyPDF: PDF digitalizado em texto pesquisável da ferramenta de código abertoO































