言語サポートの概要
クロイツベルクの多言語処理能力は、以下のコンポーネントに依存している:
- テッセラクトOCR100以上の言語に対応したテキスト認識
- パンドック基本的なUnicodeエンコーディングを扱う能力
主な設定手順
多言語を正しく扱うための核となるポイント:
- 対応する言語のOCRトレーニングパッケージのインストール
- 初期化時に文書言語を明示的に指定する:
extractor = Kreuzberg(ocr_lang='jpn+eng')
- 言語が混在する文書の処理時に自動検出モードを有効にする
特殊文字の取り扱い
ラテン語以外の言語に対する最適化の推奨:
- 日中韓の文書作成にはTesseractバージョン5以上を推奨。
- アラビア語/ヘブライ語などの右から左への言語は、特定のレイアウト解析を有効にする必要があります。
- 希少な文字セットについては、カスタムトレーニングデータが必要になる場合があります。
パフォーマンス最適化のヒント
多言語処理の効率化手法:
- 使用可能な言語の範囲を限定することで、認識時間を短縮
- バッチ文書の言語による事前ソート
- テッセラクトのGPUアクセラレーション・バージョンを考える
この答えは記事から得たものである。Kreuzberg: あらゆる文書からテキストを抽出するオープンソースツールについて































