Tecnologia OCR para tornar o texto em PDF editável
Para que a versão digitalizada do PDF não possa ser pesquisada e copiada, você pode usar a função OCR da ferramenta de código aberto para realizar a conversão de texto. A operação específica é dividida em três etapas:
- Preparação ambientalApós instalar o Docker, extraia a imagem dedicada
huridocs/pdf-document-layout-analysis:v0.0.21Os espelhos GPU e não-GPU estão disponíveis separadamente. - ativação do serviço: através de
docker runpara iniciar o serviço, observe que os dispositivos GPU precisam adicionar o comando--gpusparâmetros - conversão de arquivosEnviar uma solicitação usando o comando curl
curl -X POST -F 'language=en' -F 'file=@/path/to/test.pdf' localhost:5060/ocr --output result.pdfO parâmetro de idioma pode ser substituído pelo idioma desejado (por exemplo, coreano kor).
Dicas avançadas:
- O suporte ao chinês requer a instalação manual de pacotes de idiomas: vá para Container Execution
apt-get install tesseract-ocr-chi-sim - Chamadas de API em loop em scripts de shell para arquivos grandes.
- Os modelos visuais VGT são recomendados para documentos com requisitos de alta qualidade (suporte de GPU necessário)
Essa resposta foi extraída do artigoAnalise automaticamente o conteúdo do PDF e extraia texto e tabelas de serviços de código abertoO































