在Linux系统(以Ubuntu 22.04为例)安装OCRmyPDF需要以下步骤:
- 首先确保系统已安装Python 3和pip:
python3 --versionpip3 --version - 安装依赖项:
sudo apt updatesudo apt install tesseract-ocr ghostscript python3-pip pngquant - 使用pip安装OCRmyPDF:
pip3 install ocrmypdf - 验证安装:
ocrmypdf --version
如果显示版本号说明安装成功
注意:处理非英文文档需要额外安装对应的Tesseract语言包,例如中文需安装tesseract-ocr-chi-sim。
本答案来源于文章《OCRmyPDF:将扫描PDF转为可搜索文本的开源工具》































