在Linux系统(以Ubuntu 22.04为例)安装OCRmyPDF需要以下步骤:
- 首先确保系统已安装Python 3和pip:
python3 --version
pip3 --version
- 安装依赖项:
sudo apt update
sudo apt install tesseract-ocr ghostscript python3-pip pngquant
- 使用pip安装OCRmyPDF:
pip3 install ocrmypdf
- 验证安装:
ocrmypdf --version
如果显示版本号说明安装成功
注意:处理非英文文档需要额外安装对应的Tesseract语言包,例如中文需安装tesseract-ocr-chi-sim
。
本答案来源于文章《OCRmyPDF:将扫描PDF转为可搜索文本的开源工具》