语言支持概况
Kreuzberg的多语言处理能力主要依赖以下组件:
- Tesseract OCR:支持100+种语言的文字识别
- パンドック:具备基本的Unicode编码处理能力
主な設定手順
确保多语言正确处理的核心要点:
- 安装对应语言的OCR训练数据包
- 在初始化时明确指定文档语言:
extractor = Kreuzberg(ocr_lang='jpn+eng')
- 处理混合语言文档时启用自动检测模式
特殊文字の取り扱い
针对非拉丁语系的优化建议:
- 中日韩文档建议使用版本5+的Tesseract
- 阿拉伯/希伯来等从右向左书写的语言需启用特定布局分析
- 对于罕见字符集可能需要自定义训练数据
パフォーマンス最適化のヒント
提升多语言处理效率的方法:
- 限制可能的语言范围减少识别时间
- 对批量文档按语言预分类处理
- 考虑使用GPU加速的Tesseract版本
この答えは記事から得たものである。Kreuzberg: あらゆる文書からテキストを抽出するオープンソースツールについて