OCRmyPDF ist ein Open-Source-Befehlszeilen-Tool, das gescannten PDF-Dateien eine OCR-Textebene (Optical Character Recognition) hinzufügt und sie in durchsuchbare, reproduzierbare Dokumente verwandelt. Seine wichtigsten Funktionen umfassen:
- Hinzufügen von durchsuchbaren OCR-Textebenen zu gescannten PDFs mit Unterstützung für Kopieren und Einfügen.
- Standardmäßige Erzeugung des PDF/A-Formats, geeignet für die Langzeitarchivierung von Dokumenten.
- Unterstützt Texterkennung in 39 Sprachen, darunter Englisch, Deutsch, Chinesisch und mehr.
- Automatische Korrektur von Seitenschieflage (deskew) und Drehung (rotate-pages).
- Optimiert die Größe der PDF-Datei und erzeugt oft eine kleinere Ausgabe als die Eingabedatei.
- Unterstützt die parallele Verarbeitung mit mehreren Kernen, um die Effizienz der Verarbeitung umfangreicher Dokumente zu steigern.
- Funktionale Erweiterung durch Plug-in-Unterstützung, kompatibel mit komplexer PDF-Struktur.
- Reparieren Sie beschädigte PDF-Dateien automatisch, um die Kompatibilität zu verbessern.
Diese Antwort stammt aus dem ArtikelOCRmyPDF: gescanntes PDF in durchsuchbaren Text des Open-Source-ToolsDie