OCRmyPDF 是一个开源的命令行工具,专门为扫描的PDF文件添加光学字符识别(OCR)文本层,使其变为可搜索、可复制的文档。其主要功能包括:
- 为扫描PDF添加可搜索的OCR文本层,支持复制粘贴。
- 默认生成PDF/A格式,适合长期文档存档。
- 支持39种语言的文字识别,包括英语、德语、中文等。
- 自动校正页面倾斜(deskew)和旋转(rotate-pages)。
- 优化PDF文件大小,通常生成比输入文件更小的输出。
- 支持多核并行处理,提升大规模文档处理效率。
- 通过插件支持功能扩展,兼容复杂PDF结构。
- 自动修复损坏的PDF文件,增强兼容性。
本答案来源于文章《OCRmyPDF:将扫描PDF转为可搜索文本的开源工具》