Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito
Posição atual:fig. início " Respostas da IA

Como resolver o problema de digitalização de documentos PDF que não podem pesquisar e copiar texto?

2025-08-25 1.5 K

Tecnologia OCR para tornar o texto em PDF editável

Para que a versão digitalizada do PDF não possa ser pesquisada e copiada, você pode usar a função OCR da ferramenta de código aberto para realizar a conversão de texto. A operação específica é dividida em três etapas:

  • Preparação ambientalApós instalar o Docker, extraia a imagem dedicadahuridocs/pdf-document-layout-analysis:v0.0.21Os espelhos GPU e não-GPU estão disponíveis separadamente.
  • ativação do serviço: através dedocker runpara iniciar o serviço, observe que os dispositivos GPU precisam adicionar o comando--gpusparâmetros
  • conversão de arquivosEnviar uma solicitação usando o comando curlcurl -X POST -F 'language=en' -F 'file=@/path/to/test.pdf' localhost:5060/ocr --output result.pdfO parâmetro de idioma pode ser substituído pelo idioma desejado (por exemplo, coreano kor).

Dicas avançadas:

  • O suporte ao chinês requer a instalação manual de pacotes de idiomas: vá para Container Executionapt-get install tesseract-ocr-chi-sim
  • Chamadas de API em loop em scripts de shell para arquivos grandes.
  • Os modelos visuais VGT são recomendados para documentos com requisitos de alta qualidade (suporte de GPU necessário)

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo