为获得最佳性能,建议采取以下优化措施:
- 文档预处理:将图像分辨率控制在1200万像素(约4000×3000)以内,PDF解析时设置DPI=200平衡质量与速度
- 任务专用提示:根据需求选用特定提示词(如
prompt_layout_only_en
仅检测布局),避免全功能解析的资源浪费 - 批量处理配置:多页PDF解析时增加
--num_threads
参数(建议值64),充分利用多核CPU优势 - 硬件加速:使用CUDA 12.x环境配合vLLM部署,显存利用率建议设为0.95(
--gpu-memory-utilization 0.95
) - 异常处理:遇到特殊字符问题可切换至文本专用提示模式,连续符号需额外清洗
本答案来源于文章《dots.ocr:多语言文档布局解析的统一视觉-语言模型》