OCRmyPDFツールを使用すると、完全にこの問題を解決することができます。ツールは、次の手順でスキャンしたPDFにOCRテキストレイヤーを追加します:
- OCRmyPDFとその依存関係(例:Tesseract OCRエンジン)のインストール
- 基本コマンドの使用
ocrmypdf input.pdf output.pdf
通る - 出来上がったoutput.pdfは、検索可能でコピー可能なテキストレイヤーを持つオリジナルのレイアウトを保持します。
- 多言語ドキュメントの場合
-l
パラメータで言語を指定します(例-l eng+chi_sim
(中国語・英語混在文書の処理)
この方法は、テキスト検索とコピーの問題を解決するだけでなく、オリジナル文書の品質も維持するため、さまざまなスキャン文書のデジタル化シナリオに適している。
この答えは記事から得たものである。OCRmyPDF: スキャンしたPDFをオープンソースツールの検索可能なテキストへについて