基础安装步骤
使用pip工具即可快速安装核心Python包:
pip install kreuzberg
系统依赖配置
为获得完整功能,需要额外安装两个核心组件:
- Tesseract OCR:建议安装5.3.0+版本以获得最佳OCR效果
- Pandoc:推荐2.19+版本确保文档格式兼容性
Validierung der Umwelt
安装完成后可通过以下代码验证环境配置:
from kreuzberg import Kreuzberg extractor = Kreuzberg() print(extractor.check_dependencies())
Umgang mit häufigen Problemen
可能遇到的配置问题及解决方案:
- OCR语言包缺失:需额外下载对应语言的训练数据
- 路径识别问题:确保系统PATH包含相关组件的安装目录
- 权限不足:在Linux/macOS系统中可能需要sudo权限安装依赖
Diese Antwort stammt aus dem ArtikelKreuzberg: Open-Source-Tool zum Extrahieren von Text aus beliebigen DokumentenDie