LangExtractは以下のメカニズムで長い文書を扱います:
- インテリジェント・チャンキング:長いドキュメントを適切なサイズのテキストチャンクに自動的に分割します。
- 並列処理
max_workers
スレッド数を制御するパラメータ(例:『ロミオとジュリエット』全巻を処理する場合は4スレッド) - 多ラウンド抽出
num_passes
精度を高めるため、パラメータ設定を複数回抽出
最適化の推奨
- 非常に長い文書を処理する際のレート制限を避けるため、Tier 2 Geminiクォータを推奨する。
- 複雑な文書の場合は、より強力なモデル(例えば
gemini-2.5-flash
に切り替える。gemini-2.5-pro
) - 特にクラウドベースのモデルを使用する場合は、安定したネットワーク接続を確保する。
- 結果は
save_annotated_documents
メソッドはJSONL形式のファイルを生成する
この答えは記事から得たものである。LangExtract: テキストから構造化データを抽出するオープンソースツールについて