Linuxシステム(例えばUbuntu 22.04)にOCRmyPDFをインストールするには、以下のステップが必要です:
- まず、Python 3とpipがシステムにインストールされていることを確認する:
python3 --version
pip3 --version
- 依存関係をインストールします:
sudo apt update
sudo apt install tesseract-ocr ghostscript python3-pip pngquant
- pipを使ってOCRmyPDFをインストールしてください:
pip3 install ocrmypdf
- インストールを確認する:
ocrmypdf --version
バージョン番号が表示されていれば、インストールは成功です。
注:英語以外のドキュメントを処理するには、中国語などの対応するTesseract言語パックをインストールする必要があります。tesseract-ocr-chi-sim
.
この答えは記事から得たものである。OCRmyPDF: スキャンしたPDFをオープンソースツールの検索可能なテキストへについて