混合コンテンツPDFを扱うためのベストプラクティスソリューション:
- パラメータ選択使用
--skip-text
既存のテキストセクションの重複処理を避ける - 画像の最適化追加
--optimize 1
OCRの品質を落とすことなく画像を圧縮します。 - 選択的治療ドキュメントを結合する前に、画像のみのページを別々に処理する。
- 品質保持協力
--pdf-renderer sandwich
オリジナルの画質を維持 - 補修機能破損したファイルに遭遇したときに有効にする
--force-ocr
強制治療
特に複雑な混合文書の場合は、段階的に処理することを推奨する。まずプレーンテキストページを抽出し、次に画像ページを処理し、最後に結果をマージする。これを行うには--verbose 3
各処理ステップを監視する。
この答えは記事から得たものである。OCRmyPDF: スキャンしたPDFをオープンソースツールの検索可能なテキストへについて