シナリオ要件
企業や開発者は、データのセキュリティを確保しながら、自動テキスト抽出のローカル環境で複数のフォーマット(PDF/Word/PPTなど)をバッチ処理する必要がある場合が多い。
クロイツベルク・ソリューションズ
- マルチフォーマット対応Pandocとの統合により、20以上の文書フォーマット(.docx/.pptxなど)に対応。
- ローカリゼーションすべての処理はローカルで行われ、クラウドサービスには依存しません。
- 自動組立ラインフォルダー内のすべての文書をバッチ処理するスクリプトを書くことができます。
実施手順
- 必要なコンポーネントを取り付ける:
- クロイツベルク
pip install kreuzberg - Pandoc: システムに応じて対応するインストール・パッケージをダウンロードする。
- クロイツベルク
- バッチスクリプトを作成する:
from kreuzberg import Kreuzberg import os extractor = Kreuzberg() for file in os.listdir('docs_folder'): text = extractor.extract_text(f'docs_folder/{file}') with open(f'output/{file}.txt', 'w') as f: f.write(text) - 完全自動化のための時間指定タスクやトリガーの設定
最適化の提案
- 異なるフォーマットの処理キューを作成する
- 失敗を文書化するための例外処理メカニズムの追加
- 小さなファイルを大量に扱う場合は、マルチスレッドを考慮する。
この答えは記事から得たものである。Kreuzberg: あらゆる文書からテキストを抽出するオープンソースツールについて































