Acesso no exterior: www.kdjingpai.com

Ctrl + D Marcar este site como favorito

Posição atual:fig. início " Respostas da IA

Como usar o OCRmyPDF para processar documentos PDF contendo vários idiomas?

2025-08-14

Respostas da IA

595

Link diretoVisualização móvel

Ao lidar com documentos PDF multilíngues, você precisa usar-lespecifica a combinação de códigos de idioma:

Formato de comando básico:
ocrmypdf -l 语言代码1+语言代码2 input.pdf output.pdf
Por exemplo, lidar com documentos mistos em chinês e inglês:
ocrmypdf -l eng+chi_sim input.pdf output.pdf

Advertências:

Os pacotes de idiomas correspondentes do Tesseract devem ser instalados com antecedência; por exemplo, para o chinês, você precisa instalar o pacotetesseract-ocr-chi-sim
O código da linguagem pode ser encontrado na documentação do Tesseract.
Uso recomendado--verbose 2Resultados da identificação da validação de parâmetros
Para documentos de layout complexos, talvez seja necessário ajustar os parâmetros ou usar plug-ins.

Essa resposta foi extraída do artigoOCRmyPDF: PDF digitalizado em texto pesquisável da ferramenta de código abertoO

Artigos relacionados

Não pode ser reproduzido sem permissão:Ferramentas de produtividade de IA " Como usar o OCRmyPDF para processar documentos PDF contendo vários idiomas?

Recomendado