LangExtractは、インテリジェントなチャンキングと並列処理機能により、小説全体や医学報告書などの非常に長いテキストを効率的に処理できるように設計されています。利用方法 max_workers
パラメーターは同時スレッド数を制御し、複数ラウンドの抽出をサポートする (num_passes
)の精度を向上させる。例えば、「ロミオとジュリエット」の全文を処理する場合、システムはテキストを分割して並列に分析し、最終的にJSONL形式で統一された結果を生成する。
この答えは記事から得たものである。LangExtract: テキストから構造化データを抽出するオープンソースツールについて