Ao lidar com documentos PDF multilíngues, você precisa usar-l
especifica a combinação de códigos de idioma:
- Formato de comando básico:
ocrmypdf -l 语言代码1+语言代码2 input.pdf output.pdf
- Por exemplo, lidar com documentos mistos em chinês e inglês:
ocrmypdf -l eng+chi_sim input.pdf output.pdf
Advertências:
- Os pacotes de idiomas correspondentes do Tesseract devem ser instalados com antecedência; por exemplo, para o chinês, você precisa instalar o pacote
tesseract-ocr-chi-sim
- O código da linguagem pode ser encontrado na documentação do Tesseract.
- Uso recomendado
--verbose 2
Resultados da identificação da validação de parâmetros - Para documentos de layout complexos, talvez seja necessário ajustar os parâmetros ou usar plug-ins.
Essa resposta foi extraída do artigoOCRmyPDF: PDF digitalizado em texto pesquisável da ferramenta de código abertoO