安装PDF-Extract-Kit主要分为环境准备、依赖安装和模型下载三个步骤:
1. 环境准备:
- 操作系统支持Ubuntu/Windows/macOS(以Ubuntu 20.04为例)
- 需安装Python 3.10:
sudo apt install python3.10 python3.10-dev python3-pip
- 建议创建虚拟环境:
conda create -n pdf-extract-kit python=3.10
2. instalação de dependências:
- Armazém de Clonagem:
git clone https://github.com/opendatalab/PDF-Extract-Kit.git
- 安装核心依赖(GPU版):
pip install -r requirements.txt
- CPU用户需使用
requirements-cpu.txt
- 特殊组件可能需要单独安装,如
doclayout-yolo
3. 下载模型权重:
- 可通过Python脚本自动下载:
python scripts/download_models_hf.py
- 或从Hugging Face手动下载:
git clone https://huggingface.co/opendatalab/PDF-Extract-Kit-1.0
安装完成后,建议运行示例脚本验证环境:python pdf_extract.py --pdf assets/examples/example.pdf
Essa resposta foi extraída do artigoPDF-Extract-Kit: Extraia a estrutura complexa do conteúdo do PDF da ferramenta de código abertoO