What are Kreuzberg's considerations when working with multilingual documents?

Tesseract OCR: Supports text recognition in 100+ languages
Pandoc: Ability to handle basic Unicode encoding

2025-09-09

1.7 K

Language Support Overview

Kreuzberg's multilingual processing capabilities rely on the following components:

Core points to ensure that multilingualism is handled correctly:

Installation of OCR training packages for the corresponding language
Specify the document language explicitly at initialization time:
```
extractor = Kreuzberg(ocr_lang='jpn+eng')
```
Enable auto-detect mode when processing mixed-language documents

Optimization recommendations for non-Latin languages:

Tesseract version 5+ is recommended for CJK documentation.
Right-to-left languages such as Arabic/Hebrew require specific layout analysis to be enabled.
Customized training data may be required for rare character sets

Methods for improving the efficiency of multilingual processing: