Die folgenden Schritte sind erforderlich, um OCRmyPDF auf einem Linux-System (z. B. Ubuntu 22.04) zu installieren:
- Stellen Sie zunächst sicher, dass Python 3 und pip auf Ihrem System installiert sind:
python3 --version
pip3 --version
- Abhängigkeiten installieren:
sudo apt update
sudo apt install tesseract-ocr ghostscript python3-pip pngquant
- Installieren Sie OCRmyPDF mit pip:
pip3 install ocrmypdf
- Überprüfen Sie die Installation:
ocrmypdf --version
Wenn die Versionsnummer angezeigt wird, war die Installation erfolgreich.
Hinweis: Um nicht-englische Dokumente zu verarbeiten, müssen Sie die entsprechenden Tesseract-Sprachpakete installieren, z. B. Chinesisch.tesseract-ocr-chi-sim
.
Diese Antwort stammt aus dem ArtikelOCRmyPDF: gescanntes PDF in durchsuchbaren Text des Open-Source-ToolsDie