Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite

OCRmyPDF ist ein Open-Source-Befehlszeilen-Tool, das entwickelt wurde, um eine OCR-Textebene zu gescannten PDF-Dateien hinzuzufügen und sie in durchsuchbare, reproduzierbare Dokumente zu verwandeln. Es basiert auf der Python-Entwicklung, der Verwendung der Tesseract OCR-Engine, kann den Text im Bild genau identifizieren und in die PDF-Datei einbetten, das Layout des Originaldokuments und die Bildqualität beibehalten. Das Tool unterstützt mehrere Sprachen, anwendbar auf Linux, Windows, macOS und andere Plattformen, sondern bietet auch ein Docker-Image, um plattformübergreifende Bereitstellung zu erleichtern.OCRmyPDF Standard-Generierung von PDF/A-Format, geeignet für die langfristige Archivierung, während die Unterstützung der Seite Korrektur, Bild-Optimierung und andere Funktionen, weit verbreitet in Dokumentendigitalisierung und Archivierung Szenarien verwendet.

 

Funktionsliste

  • Hinzufügen von durchsuchbaren OCR-Textebenen zu gescannten PDFs mit Unterstützung für Kopieren und Einfügen.
  • Standardmäßige Erzeugung des PDF/A-Formats, geeignet für die Langzeitarchivierung von Dokumenten.
  • Unterstützt die Texterkennung in 39 Sprachen, darunter Englisch, Deutsch und Chinesisch.
  • Automatische Korrektur von Seitenschieflage (deskew) und Drehung (rotate-pages).
  • Optimiert die Größe der PDF-Datei und erzeugt oft eine kleinere Ausgabe als die Eingabedatei.
  • Unterstützt die parallele Verarbeitung mit mehreren Kernen, um die Effizienz der Verarbeitung umfangreicher Dokumente zu steigern.
  • Bietet einen Debug-Modus zur einfachen Überprüfung der OCR-Ergebnisse.
  • Funktionale Erweiterung durch Plug-in-Unterstützung, kompatibel mit komplexer PDF-Struktur.
  • Reparieren Sie beschädigte PDF-Dateien automatisch, um die Kompatibilität zu verbessern.

Hilfe verwenden

Einbauverfahren

Die Installation von OCRmyPDF erfordert die Konfiguration von Abhängigkeiten auf unterstützten Betriebssystemen, einschließlich Python, Tesseract, Ghostscript usw. Nachfolgend finden Sie detaillierte Installationsschritte für gängige Betriebssysteme:

Linux (Ubuntu 22.04 als Beispiel)

  1. Stellen Sie sicher, dass Python 3 und pip auf Ihrem System installiert sind:
    python3 --version
    pip3 --version
    
  2. Abhängigkeiten installieren:
    sudo apt update
    sudo apt install tesseract-ocr ghostscript python3-pip pngquant
    
  3. Installieren Sie OCRmyPDF mit pip:
    pip3 install ocrmypdf
    
  4. Überprüfen Sie die Installation:
    ocrmypdf --version
    

    Wenn die Versionsnummer angezeigt wird, war die Installation erfolgreich.

Windows (Computer)

  1. Installieren Sie Python 3 (wir empfehlen, die neueste Version von der offiziellen Website herunterzuladen).
  2. Installieren Sie Tesseract und Ghostscript (der Chocolatey Package Manager wird empfohlen):
    choco install tesseract ghostscript
    
  3. Installieren Sie OCRmyPDF mit pip:
    pip install ocrmypdf
    
  4. Bestätigen Sie, dass die Installation abgeschlossen ist:
    ocrmypdf --version
    

macOS (mit Homebrew)

  1. Installieren Sie Homebrew (falls nicht bereits installiert):
    /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
    
  2. Abhängigkeiten installieren:
    brew install tesseract ghostscript ocrmypdf
    
  3. Überprüfen Sie die Installation:
    ocrmypdf --version
    

Docker-Installation

  1. Stellen Sie sicher, dass Docker installiert ist und läuft:
    docker run hello-world
    
  2. Ziehen Sie das OCRmyPDF-Bild:
    docker pull jbarlow83/ocrmypdf
    
  3. Markieren Sie den Spiegel mit einem passenden Namen:
    docker tag jbarlow83/ocrmypdf ocrmypdf
    

Verwendung

OCRmyPDF ist ein einfach zu bedienendes, aber leistungsfähiges Befehlszeilentool. Das grundlegende Befehlsformat ist:

ocrmypdf [选项] 输入文件 输出文件

grundlegende Bedienung

  1. Einfache OCR-Konvertierung::
    Konvertieren Sie gescannte PDFs in durchsuchbare PDFs:

    ocrmypdf input.pdf output.pdf
    

    Dies wird sich um Folgendes kümmerninput.pdfzur Erzeugung der OCR-Textebene mit demoutput.pdf.

  2. Sprache spezifizieren::
    Unterstützt mehrsprachige OCR, z. B. für PDFs, die sowohl Englisch als auch Chinesisch enthalten:

    ocrmypdf -l eng+chi_sim input.pdf output.pdf
    

    Der Sprachcode ist in der Tesseract-Dokumentation zu finden.

  3. Korrektur und Optimierung von Seiten::
    Automatische Neigungskorrektur und PDF/A-Erzeugung:

    ocrmypdf --deskew --output-type pdfa input.pdf output.pdf
    
  4. Parallelverarbeitung::
    Verwenden Sie Multi-Core, um die Verarbeitung zu beschleunigen:

    ocrmypdf --jobs 4 input.pdf output.pdf
    

Featured Function Bedienung

  • Drehung der Seite: Erkennt und korrigiert automatisch die Seitenausrichtung:
    ocrmypdf --rotate-pages input.pdf output.pdf
    

    passabel--rotate-pages-thresholdLegt den Schwellenwert für die Rotation fest.

  • BildbereinigungBereinigung von Bildern vor der OCR, um die Erkennungsgenauigkeit zu verbessern:
    ocrmypdf --clean input.pdf output.pdf
    
  • Debug-ModusOCR-Ergebnisse überprüfen und detaillierte Protokolle erstellen:
    ocrmypdf --verbose 2 input.pdf output.pdf
    
  • Vorhandenen Text überspringenVermeiden Sie die Duplizierung von Seiten mit bereits vorhandenem Text:
    ocrmypdf --skip-text input.pdf output.pdf
    

Docker-Verwendung

Verwenden Sie Docker, um OCRmyPDF für Szenarien ohne lokale Umgebung auszuführen:

docker run --rm -v $(pwd):/data ocrmypdf /data/input.pdf /data/output.pdf

Dieser Befehl setzt den Wert für das aktuelle Verzeichnisinput.pdfverarbeitet und an denoutput.pdf.

caveat

  • Vergewissern Sie sich, dass es sich bei der Eingabe-PDF um ein gescanntes Dokument handelt; PDFs, die Text enthalten, erfordern möglicherweise die Verwendung der Option--skip-text.
  • Tesseract-Sprachpakete müssen separat installiert werden, um z. B. mehrere Sprachen zu unterstützen:
    sudo apt install tesseract-ocr-chi-sim
    
  • Für komplexe PDFs ist es empfehlenswert, die--verboseDetaillierte Protokolle für eine einfache Fehlersuche.

Anwendungsszenario

  1. Digitalisierung von Dokumenten
    Nach dem Scannen eines Papierdokuments in eine PDF-Datei können Sie mit OCRmyPDF eine Textebene hinzufügen, die das Durchsuchen und Kopieren des Inhalts erleichtert und sich für die Dateiverwaltung oder die Archivierung von Rechtsdokumenten eignet.
  2. akademische Forschung
    Forscher können gescannte akademische Dokumente in durchsuchbare PDF-Dateien umwandeln, die das Extrahieren von Zitaten oder Schlüsselwörtern erleichtern und die Effizienz der Literaturverwaltung verbessern.
  3. Unternehmensweite Archivierung
    Unternehmen können gescannte Verträge und Rechnungen im Stapelverfahren verarbeiten, um das PDF/A-Format zu erzeugen und so eine langfristige Aufbewahrung und die Einhaltung gesetzlicher Vorschriften zu gewährleisten.
  4. Mehrsprachige Dokumentenverarbeitung
    Bei mehrsprachigen gescannten Dokumenten, wie z. B. gemischten chinesischen und englischen Verträgen, erkennt OCRmyPDF mehrere Sprachen und bettet den Text ein.

QA

  1. Welche Betriebssysteme werden von OCRmyPDF unterstützt?
    Unterstützung für Linux, Windows, macOS und FreeBSD, auch plattformübergreifend über Docker verfügbar.
  2. Wie gehe ich mit nicht-englischen Dokumenten um?
    ausnutzen-lGeben Sie den Sprachencode an, z. B.-l chi_simUm Chinesisch zu beherrschen, müssen Sie das entsprechende Sprachpaket installieren.
  3. Was ist, wenn die Ausgabedatei größer ist als die Eingabedatei?
    ausnutzen--optimize 1Oder installieren Sie den JBIG2-Encoder, um die Dateigröße zu komprimieren.
  4. Wie können OCR-Ergebnisse überprüft werden?
    ausnutzen--verbose 2Erzeugen Sie detaillierte Protokolle, oder prüfen Sie die PDF-Ausgabe auf reproduzierbaren Text.
0Lesezeichen
0Gelobt

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

zurück zum Anfang

de_DEDeutsch