OCRmyPDFは、スキャンしたPDFファイルに光学式文字認識(OCR)テキストレイヤーを追加し、検索可能で再現可能な文書にするために設計されたオープンソースのコマンドラインツールです。主な機能は以下の通りです:
- コピー&ペーストに対応し、スキャンしたPDFに検索可能なOCRテキストレイヤーを追加。
- 長期間の文書アーカイブに適したPDF/Aフォーマットのデフォルト生成。
- 英語、ドイツ語、中国語など39言語のテキスト認識に対応。
- ページの傾き(傾き補正)と回転(ページ回転)の自動補正。
- PDFファイルのサイズを最適化し、多くの場合、入力ファイルよりも小さな出力を生成します。
- マルチコア並列処理をサポートし、大規模文書処理の効率化を実現。
- プラグイン対応による機能拡張、複雑なPDF構造にも対応。
- 互換性を高めるために自動的に破損したPDFファイルを修復します。
この答えは記事から得たものである。OCRmyPDF: スキャンしたPDFをオープンソースツールの検索可能なテキストへについて