Docstrange提供了智能字段提取功能,可以通过两种方式提取特定字段:
- Python API方式:使用
extract_data
方法并指定specified_fields
参数,如提取发票编号和总金额:fields = result.extract_data(specified_fields=["invoice_number", "total_amount"])
- 命令行方式:使用
--extract-fields
参数,如:docstrange invoice.pdf --output json --extract-fields invoice_number total_amount
该功能特别适合从发票、合同等文档中快速提取关键信息,输出为结构化数据格式。
本答案来源于文章《Docstrange:从文档和图片提取数据并转换为多种格式的工具》