使用Docker运行OCRmyPDF的步骤如下:
- 确保Docker已安装并运行:
docker run hello-world
- 拉取OCRmyPDF官方镜像:
docker pull jbarlow83/ocrmypdf
- (可选)标记镜像为便捷名称:
docker tag jbarlow83/ocrmypdf ocrmypdf
- 运行OCR处理:
docker run --rm -v $(pwd):/data ocrmypdf /data/input.pdf /data/output.pdf
此命令会:
- 将当前目录(
$(pwd)
)挂载到容器的/data
目录 - 处理当前目录下的input.pdf文件
- 输出结果到当前目录的output.pdf
- 运行后自动删除临时容器(
--rm
参数)
Docker方式特别适合无本地环境或需要跨平台使用的场景。
本答案来源于文章《OCRmyPDF:将扫描PDF转为可搜索文本的开源工具》