当前位置：首页 » AI答疑

如何使用olmOCR在AWS云端进行大规模PDF处理？

2025-08-30

1.6 K

使用olmOCR在AWS云端进行大规模PDF处理的步骤如下：

AWS准备：
- 创建AWS账户并生成访问密钥
- 创建两个S3存储桶：一个用于工作区，一个存放PDF文件
文件上传：将待处理的PDF文件上传至指定的S3存储桶（如s3://my_s3_bucket/jakep/gnarly_pdfs/）
启动主节点：运行命令创建处理队列
python -m olmocr.pipeline s3://my_s3_bucket/pdfworkspaces/exampleworkspace --pdfs s3://my_s3_bucket/jakep/gnarly_pdfs/*.pdf
添加从节点：在其他机器上运行相同命令（不带PDF参数），节点会自动获取任务
结果查看：处理结果存储在s3://my_s3_bucket/pdfworkspaces/exampleworkspace/results

注意事项：

快速查询站内AI工具