Para otimizar a velocidade de processamento de documentos grandes, o OCRmyPDF oferece as seguintes soluções eficazes:
- fazer uso de
--jobs
para permitir o processamento paralelo de vários núcleos, por exemplo.--jobs 4
Acelerado com 4 núcleos de CPU - O estágio de pré-tratamento pode ser adicionado
--skip-text
Ignorar páginas que já possuem texto para evitar processamento duplicado - começar a usar
--optimize 1
Etapas de otimização simplificadas - Para cenários de processamento em lote, é recomendável usar a implantação de contêineres do Docker para aumentar a eficiência operacional
- Para otimizar a memória, considere usar o seguinte ao trabalhar com PDFs complexos
--tesseract-timeout
Limitar o tempo de processamento de uma única página
Com esses métodos, as velocidades de processamento podem ser aumentadas em 200%-400%, dependendo da configuração do hardware.
Essa resposta foi extraída do artigoOCRmyPDF: PDF digitalizado em texto pesquisável da ferramenta de código abertoO