O OCRmyPDF é uma ferramenta de linha de comando de código aberto criada para adicionar uma camada de texto de reconhecimento óptico de caracteres (OCR) a arquivos PDF digitalizados, transformando-os em documentos pesquisáveis e reproduzíveis. Seus principais recursos incluem:
- Adicione camadas de texto OCR pesquisáveis a PDFs digitalizados com suporte para copiar e colar.
- Geração padrão do formato PDF/A, adequado para arquivamento de documentos de longo prazo.
- Oferece suporte ao reconhecimento de texto em 39 idiomas, incluindo inglês, alemão, chinês, etc.
- Correção automática da inclinação da página (deskew) e da rotação (rotate-pages).
- Otimiza o tamanho do arquivo PDF, geralmente gerando uma saída menor do que o arquivo de entrada.
- Oferece suporte ao processamento paralelo de vários núcleos para aumentar a eficiência do processamento de documentos em grande escala.
- Expansão funcional por meio de suporte a plug-ins, compatível com estruturas complexas de PDF.
- Repare automaticamente arquivos PDF corrompidos para aumentar a compatibilidade.
Essa resposta foi extraída do artigoOCRmyPDF: PDF digitalizado em texto pesquisável da ferramenta de código abertoO