处理混合内容PDF的最佳实践方案:
- 参数选择:使用
--skip-text
避免对已有文本部分重复处理 - 图像优化:添加
--optimize 1
压缩图像又不降低OCR质量 - 选择性处理:对纯图像页面单独处理后再合并文档
- 质量保留:配合
--pdf-renderer sandwich
保持原始图像质量 - 修复功能:遇到损坏文件时启用
--force-ocr
强制处理
对于特别复杂的混合文档,建议分阶段处理:先提取纯文本页面,再处理图像页面,最后合并结果。可通过--verbose 3
监控每个处理步骤。
本答案来源于文章《OCRmyPDF:将扫描PDF转为可搜索文本的开源工具》