混合コンテンツPDFを扱うためのベストプラクティスソリューション:
- パラメータ選択使用
--skip-text既存のテキストセクションの重複処理を避ける - 画像の最適化追加
--optimize 1OCRの品質を落とすことなく画像を圧縮します。 - 選択的治療ドキュメントを結合する前に、画像のみのページを別々に処理する。
- 品質保持協力
--pdf-renderer sandwichオリジナルの画質を維持 - 補修機能破損したファイルに遭遇したときに有効にする
--force-ocr強制治療
特に複雑な混合文書の場合は、段階的に処理することを推奨する。まずプレーンテキストページを抽出し、次に画像ページを処理し、最後に結果をマージする。これを行うには--verbose 3各処理ステップを監視する。
この答えは記事から得たものである。OCRmyPDF: スキャンしたPDFをオープンソースツールの検索可能なテキストへについて































