Erreicht wird dies durch die Stapelverarbeitung und die intelligente Feldextraktion von Docstrange:
- Verwenden Sie Platzhalter in der Befehlszeile, um mehrere Dateien zu verarbeiten:
docstrange contracts/*.pdf --output json --extract-fields contract_number parties total_value - oder Stapelverarbeitung über Python-Skripte:
for file in glob.glob("contracts/*.pdf"):
result = extractor.extract(file)
data = result.extract_data(schema=predefined_schema) - Es wird empfohlen, zunächst die Spezifikation der JSON-Datenstruktur zu definieren:
schema = {"contract_number":"string","parties":["string"],"total_value":"number"} - Für Anforderungen auf Unternehmensebene kann die NanoNets Cloud API genutzt werden, um die Verarbeitungseffizienz zu erhöhen.
Diese Lösung reduziert den manuellen Überprüfungsprozess, der traditionell Tage dauert, auf wenige Minuten.
Diese Antwort stammt aus dem ArtikelDocstrange: ein Tool zum Extrahieren von Daten aus Dokumenten und Bildern und deren Konvertierung in verschiedene FormateDie




























