基础安装步骤
使用pip工具即可快速安装核心Python包:
pip install kreuzberg
系统依赖配置
为获得完整功能,需要额外安装两个核心组件:
- Tesseract OCR:建议安装5.3.0+版本以获得最佳OCR效果
- パンドック:推荐2.19+版本确保文档格式兼容性
環境バリデーション
安装完成后可通过以下代码验证环境配置:
from kreuzberg import Kreuzberg extractor = Kreuzberg() print(extractor.check_dependencies())
よくある問題への対応
可能遇到的配置问题及解决方案:
- OCR语言包缺失:需额外下载对应语言的训练数据
- 路径识别问题:确保系统PATH包含相关组件的安装目录
- 权限不足:在Linux/macOS系统中可能需要sudo权限安装依赖
この答えは記事から得たものである。Kreuzberg: あらゆる文書からテキストを抽出するオープンソースツールについて