Solução de práticas recomendadas para lidar com PDFs de conteúdo misto:
- Seleção de parâmetros: Uso
--skip-text
Evite a duplicação do processamento de seções de texto existentes - Otimização de imagens: Adicionar
--optimize 1
Compacta imagens sem degradar a qualidade do OCR - tratamento seletivoProcessamento separado de páginas somente de imagem antes de combinar documentos
- Retenção de qualidade: Cooperação
--pdf-renderer sandwich
Mantém a qualidade da imagem original - Função de reparoAtivar quando encontrar arquivos corrompidos
--force-ocr
tratamento compulsório
Para documentos mistos particularmente complexos, recomenda-se processá-los em etapas: primeiro extrair as páginas de texto simples, depois processar as páginas de imagem e, por fim, mesclar os resultados. Isso pode ser feito por--verbose 3
Monitore cada etapa do processamento.
Essa resposta foi extraída do artigoOCRmyPDF: PDF digitalizado em texto pesquisável da ferramenta de código abertoO