Dockerを使ってOCRmyPDFを実行する手順は以下の通りです:
- Dockerがインストールされ、実行されていることを確認する:
docker run hello-world
- OCRmyPDFの公式画像を取り出します:
docker pull jbarlow83/ocrmypdf
- (オプション)ミラーに便利な名前を付けます:
docker tag jbarlow83/ocrmypdf ocrmypdf
- OCR処理を実行する:
docker run --rm -v $(pwd):/data ocrmypdf /data/input.pdf /data/output.pdf
このコマンドは
- カレント・ディレクトリを設定する (
$(pwd)
)がコンテナの/data
ディレクトリ - カレントディレクトリ内のinput.pdfファイルを処理する
- 結果をカレントディレクトリのoutput.pdfに出力する。
- を実行した後、一時コンテナを自動的に削除します。
--rm
パラメーター)
Dockerのアプローチは、ローカル環境がない場合や、クロスプラットフォームでの使用が必要な場合に特に適している。
この答えは記事から得たものである。OCRmyPDF: スキャンしたPDFをオープンソースツールの検索可能なテキストへについて