背景となる課題
RAG(Retrieval Augmented Generation:検索拡張世代)システムを構築する際、特にフォーマットが混在する企業文書を扱う場合、文書の前処理段階がパフォーマンスのボトルネックになることが多い。
クロイツベルクの最適化プログラム
- 処理プロセスの調和PDF/OCR/Officeやその他のフォーマットを扱う単一のインターフェース
- ネイティブ・テキスト保持元の文書構造と意味情報を最大限に保存する。
- 迅速な統合既存のRAG前処理パイプラインに組み込むための数行のコード
具体的な実施方法
- 建築デザイン::
- クロイツベルクを文書前処理マイクロサービスとして使う
- 後続のベクトル化のための標準化テキストの出力
- コード統合の例::
# RAG预处理环节 def preprocess_document(file_path): extractor = Kreuzberg() # 自动识别并处理各种格式 text = extractor.extract_text(file_path) # 执行必要的文本清洗 cleaned_text = clean_text(text) return cleaned_text - パフォーマンス・チューニング::
- 大量文書の並列処理が可能
- 処理された文書の中間結果をキャッシュする
効果評価
従来の解決策と比較して、クロイツベルクの使用は可能である:
- 50%以上のフォーマット互換コードの削減
- 30%を上回る文書処理スループットの向上
- OCRサービスを呼び出すコストを削減
この答えは記事から得たものである。Kreuzberg: あらゆる文書からテキストを抽出するオープンソースツールについて































