OCRmyPDF支持多语言文字识别,可以通过以下步骤处理多语言文档:
- 使用
-l
选项指定语言代码,例如-l eng+chi_sim
用于处理包含英文和中文的PDF。 - 安装对应的Tesseract语言包,例如在Linux上安装中文语言包:
sudo apt install tesseract-ocr-chi-sim
- 语言代码可以在Tesseract文档中查找。
OCRmyPDF支持39种语言的文字识别,适合处理多语言混合的扫描文档,如中英混合合同或学术论文。
本答案来源于文章《OCRmyPDF:将扫描PDF转为可搜索文本的开源工具》