如何使用Mistral OCR API处理PDF文档？

2025-08-30

1.6 K

Mistral OCR API提供了简单易用的Python SDK来快速集成PDF处理功能，主要步骤包括：

environmental preparation：安装mistralai库并配置API密钥
在线文档处理：直接对网络PDF文档进行OCR识别
Sample code:
from mistralai import Mistral
api_key = os.environ[…]
文件上传处理：通过files.upload接口上传本地PDF文件
需要指定purpose=’ocr’参数
获取签名URL：使用get_signed_url获取安全访问链接
获取OCR结果：通过process接口获取结构化识别结果

API支持多种输出格式，包括保留原始结构的Markdown，还能通过include_image_base64参数选择是否包含图像的base64编码。处理后的结果包含详细的文档元数据，方便程序化处理。

Quick query station AI tool