处理多语言PDF文档时,需要使用-l
参数指定语言代码组合:
- 基本命令格式:
ocrmypdf -l 语言代码1+语言代码2 input.pdf output.pdf
- 例如处理中英混合文档:
ocrmypdf -l eng+chi_sim input.pdf output.pdf
注意事项:
- 必须提前安装对应的Tesseract语言包,例如中文需要安装
tesseract-ocr-chi-sim
- 语言代码可在Tesseract文档中查找
- 建议使用
--verbose 2
参数验证识别结果 - 对于复杂排版文档,可能需要调整参数或使用插件
本答案来源于文章《OCRmyPDF:将扫描PDF转为可搜索文本的开源工具》