O OCRmyPDF é uma ferramenta de linha de comando de código aberto projetada para adicionar uma camada de texto de reconhecimento óptico de caracteres (OCR) a arquivos PDF digitalizados, transformando-os em documentos pesquisáveis e reproduzíveis. Ela se baseia no desenvolvimento em Python, no uso do mecanismo Tesseract OCR, pode identificar com precisão o texto na imagem e incorporá-lo ao PDF, mantendo o layout do documento original e a qualidade da imagem. A ferramenta é compatível com vários idiomas, aplicável a Linux, Windows, macOS e outras plataformas, mas também fornece uma imagem Docker para facilitar a implantação entre plataformas.OCRmyPDF gera por padrão o formato PDF/A, adequado para arquivamento de longo prazo, ao mesmo tempo em que oferece suporte à correção de página, otimização de imagem e outros recursos, amplamente usados em cenários de digitalização e arquivamento de documentos.
Lista de funções
- Adicione camadas de texto OCR pesquisáveis a PDFs digitalizados com suporte para copiar e colar.
- Geração padrão do formato PDF/A, adequado para arquivamento de documentos de longo prazo.
- Oferece suporte ao reconhecimento de texto em 39 idiomas, incluindo inglês, alemão, chinês e outros.
- Correção automática da inclinação da página (deskew) e da rotação (rotate-pages).
- Otimiza o tamanho do arquivo PDF, geralmente gerando uma saída menor do que o arquivo de entrada.
- Oferece suporte ao processamento paralelo de vários núcleos para aumentar a eficiência do processamento de documentos em grande escala.
- Oferece o modo de depuração para facilitar a verificação dos resultados de OCR.
- Expansão funcional por meio de suporte a plug-ins, compatível com estruturas complexas de PDF.
- Repare automaticamente arquivos PDF corrompidos para aumentar a compatibilidade.
Usando a Ajuda
Processo de instalação
A instalação do OCRmyPDF requer a configuração de dependências nos sistemas operacionais suportados, incluindo Python, Tesseract, Ghostscript e assim por diante. Abaixo estão as etapas detalhadas de instalação para sistemas operacionais comuns:
Linux (Ubuntu 22.04 como exemplo)
- Certifique-se de que o Python 3 e o pip estejam instalados em seu sistema:
python3 --version pip3 --version
- Instalar dependências:
sudo apt update sudo apt install tesseract-ocr ghostscript python3-pip pngquant
- Instale o OCRmyPDF usando o pip:
pip3 install ocrmypdf
- Verifique a instalação:
ocrmypdf --version
Se o número da versão for exibido, a instalação foi bem-sucedida.
Windows (computador)
- Instale o Python 3 (recomendamos fazer o download da versão mais recente no site oficial).
- Instale o Tesseract e o Ghostscript (recomenda-se o Chocolatey Package Manager):
choco install tesseract ghostscript
- Instale o OCRmyPDF usando o pip:
pip install ocrmypdf
- Confirme se a instalação foi concluída:
ocrmypdf --version
macOS (usando o Homebrew)
- Instale o Homebrew (se ainda não estiver instalado):
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
- Instalar dependências:
brew install tesseract ghostscript ocrmypdf
- Verifique a instalação:
ocrmypdf --version
Instalação do Docker
- Certifique-se de que o Docker esteja instalado e em execução:
docker run hello-world
- Extraia a imagem do OCRmyPDF:
docker pull jbarlow83/ocrmypdf
- Marque o espelho com um nome conveniente:
docker tag jbarlow83/ocrmypdf ocrmypdf
Uso
O OCRmyPDF é uma ferramenta de linha de comando, simples de usar, mas poderosa. O formato básico do comando é:
ocrmypdf [选项] 输入文件 输出文件
operação básica
- Conversão simples de OCR::
Converta PDFs digitalizados em PDFs pesquisáveis:ocrmypdf input.pdf output.pdf
Isso cuidará de
input.pdf
para gerar a camada de texto de OCR com ooutput.pdf
. - Especificar o idioma::
Oferece suporte a OCR em vários idiomas, por exemplo, para lidar com PDFs que contenham inglês e chinês:ocrmypdf -l eng+chi_sim input.pdf output.pdf
O código da linguagem pode ser encontrado na documentação do Tesseract.
- Correção e otimização de páginas::
Correção automática de inclinação e geração de PDF/A:ocrmypdf --deskew --output-type pdfa input.pdf output.pdf
- processamento paralelo::
Use vários núcleos para acelerar o processamento:ocrmypdf --jobs 4 input.pdf output.pdf
Operação da função em destaque
- Rotação da páginaDetecta e corrige automaticamente a orientação da página:
ocrmypdf --rotate-pages input.pdf output.pdf
aceitável
--rotate-pages-threshold
Define o limite de rotação. - Limpeza de imagemLimpeza de imagens antes do OCR para melhorar a precisão do reconhecimento:
ocrmypdf --clean input.pdf output.pdf
- modo de depuraçãoVerificação de resultados de OCR e geração de registros detalhados:
ocrmypdf --verbose 2 input.pdf output.pdf
- Ignorar texto existenteEvite duplicar páginas com texto existente:
ocrmypdf --skip-text input.pdf output.pdf
Uso do Docker
Use o Docker para executar o OCRmyPDF em cenários sem ambiente local:
docker run --rm -v $(pwd):/data ocrmypdf /data/input.pdf /data/output.pdf
Esse comando define o diretório atual doinput.pdf
processados e enviados para ooutput.pdf
.
advertência
- Certifique-se de que o PDF de entrada seja um documento digitalizado; os PDFs que contêm texto podem exigir o uso da função
--skip-text
. - Os pacotes de idiomas do Tesseract precisam ser instalados separadamente para oferecer suporte a vários idiomas, por exemplo:
sudo apt install tesseract-ocr-chi-sim
- Para PDFs complexos, é recomendável ativar
--verbose
Visualize registros detalhados para facilitar a solução de problemas.
cenário do aplicativo
- Digitalização de documentos
Depois de digitalizar um documento em papel para PDF, use o OCRmyPDF para adicionar uma camada de texto para facilitar a pesquisa e a cópia do conteúdo, adequado para gerenciamento de arquivos ou arquivamento de documentos legais. - pesquisa acadêmica
Os pesquisadores podem converter artigos acadêmicos digitalizados em PDFs pesquisáveis, facilitando a extração de citações ou palavras-chave e melhorando a eficiência do gerenciamento da literatura. - Arquivamento corporativo
As empresas podem processar em lote contratos e faturas digitalizados para gerar o formato PDF/A e garantir a retenção a longo prazo e a conformidade legal. - Processamento de documentos multilíngues
Ao lidar com documentos digitalizados em vários idiomas, como contratos mistos em chinês e inglês, o OCRmyPDF reconhece vários idiomas e incorpora o texto.
QA
- Quais sistemas operacionais são compatíveis com o OCRmyPDF?
Suporte para Linux, Windows, macOS e FreeBSD, também disponível em várias plataformas via Docker. - Como lidar com documentos que não estejam em inglês?
fazer uso de-l
Especifique o código do idioma, por exemplo-l chi_sim
Para lidar com o chinês, você precisa instalar o pacote de idiomas correspondente. - E se o arquivo de saída for maior do que o de entrada?
fazer uso de--optimize 1
Ou instale o codificador JBIG2 para compactar o tamanho do arquivo. - Como verificar os resultados do OCR?
fazer uso de--verbose 2
Gere registros detalhados ou verifique o PDF de saída para obter um texto reproduzível.