Mistral OCR API提供了简单易用的Python SDK来快速集成PDF处理功能,主要步骤包括:
- environmental preparation:安装mistralai库并配置API密钥
- 在线文档处理:直接对网络PDF文档进行OCR识别
Sample code:
from mistralai import Mistral
api_key = os.environ[…] - 文件上传处理:通过files.upload接口上传本地PDF文件
需要指定purpose=’ocr’参数 - 获取签名URL:使用get_signed_url获取安全访问链接
- 获取OCR结果:通过process接口获取结构化识别结果
API支持多种输出格式,包括保留原始结构的Markdown,还能通过include_image_base64参数选择是否包含图像的base64编码。处理后的结果包含详细的文档元数据,方便程序化处理。
This answer comes from the articleMistral OCR: 94.89% Overall Accuracy, 1000 Pages/30 Seconds, Only $1The