如何使用olmOCR在AWS云端进行大规模PDF处理？

2025-08-30

1.7 K

使用olmOCR在AWS云端进行大规模PDF处理的步骤如下：

AWS准备::
- 创建AWS账户并生成访问密钥
- 创建两个S3存储桶：一个用于工作区，一个存放PDF文件
File Upload：将待处理的PDF文件上传至指定的S3存储桶（如s3://my_s3_bucket/jakep/gnarly_pdfs/）
启动主节点：运行命令创建处理队列
python -m olmocr.pipeline s3://my_s3_bucket/pdfworkspaces/exampleworkspace --pdfs s3://my_s3_bucket/jakep/gnarly_pdfs/*.pdf
Adding Slave Nodes：在其他机器上运行相同命令（不带PDF参数），节点会自动获取任务
Results View：处理结果存储在s3://my_s3_bucket/pdfworkspaces/exampleworkspace/results

Caveats:

Quick query station AI tool