これは、Docstrangeのバッチ処理とスマートフィールド抽出機能によって実現されます:
- コマンドラインのワイルドカードを使用して、複数のファイルを処理します:
docstrange contracts/*.pdf --output json --extract-fields contract_number parties total_value - またはPythonスクリプトによるバッチ処理:
for file in glob.glob("contracts/*.pdf"):
result = extractor.extract(file)
data = result.extract_data(schema=predefined_schema) - JSONデータ構造仕様を最初に定義することを推奨する:
schema = {"contract_number":"string","parties":["string"],"total_value":"number"} - 企業レベルの要件には、NanoNetsクラウドAPIを使用して処理効率を高めることができます。
このソリューションにより、従来は数日かかっていた手作業による審査プロセスが数分に短縮される。
この答えは記事から得たものである。Docstrange: ドキュメントや画像からデータを抽出し、複数のフォーマットに変換するツール。について




























