安装和使用Docstrange的步骤如下:
- 确保已安装Python 3.8或更高版本
- 通过pip安装Docstrange库:
pip install docstrange
- 选择处理模式:
- 云端模式(默认):无需额外配置,但可注册NanoNets获取API密钥提高限额
- 本地模式:需安装OCR依赖(如Ollama),使用
--cpu-mode
或--gpu-mode
参数
- 通过Python API或命令行开始处理文档
例如,基本的PDF转Markdown命令:docstrange document.pdf --output markdown
更多详细用法可参考GitHub文档。
本答案来源于文章《Docstrange:从文档和图片提取数据并转换为多种格式的工具》