Anforderungen an das Szenario
Unternehmen oder Entwickler müssen häufig mehrere Formate in der lokalen Umgebung (PDF/Word/PPT usw.) der automatisierten Textextraktion im Stapel verarbeiten und dabei die Datensicherheit gewährleisten.
Kreuzberg-Lösungen
- Unterstützung mehrerer Formate20+ Dokumentformate (einschließlich .docx/.pptx, etc.) werden durch die Pandoc-Integration unterstützt
- LokalisierungDie gesamte Verarbeitung erfolgt lokal und ist nicht auf Cloud-Dienste angewiesen.
- automatische MontagelinieFür die Stapelverarbeitung aller Dokumente in einem Ordner können Skripte geschrieben werden.
Schritte zur Umsetzung
- Installieren Sie die erforderlichen Komponenten:
- Kreuzberg:
pip install kreuzberg - Pandoc: Laden Sie das entsprechende Installationspaket für Ihr System herunter.
- Kreuzberg:
- Erstellen Sie Batch-Skripte:
from kreuzberg import Kreuzberg import os extractor = Kreuzberg() for file in os.listdir('docs_folder'): text = extractor.extract_text(f'docs_folder/{file}') with open(f'output/{file}.txt', 'w') as f: f.write(text) - Einrichten von zeitgesteuerten Aufgaben oder Auslösern für die vollständige Automatisierung
Optimierungsempfehlungen
- Erstellen von Verarbeitungswarteschlangen für verschiedene Formate
- Hinzufügen eines Mechanismus zur Behandlung von Ausnahmen zur Dokumentation von Fehlern
- Erwägen Sie Multithreading für eine große Anzahl kleiner Dateien
Diese Antwort stammt aus dem ArtikelKreuzberg: Open-Source-Tool zum Extrahieren von Text aus beliebigen DokumentenDie































