针对超长文档处理,LangExtract提供了智能优化方案:
- Parallelverarbeitung: Durch die Einstellung der
max_workers
Parameter (z.B.max_workers=4
)启动多线程处理 - Intelligentes Chunking:工具会自动将长文档分割为合理片段,保持上下文连贯性
- Mehrkreis-Extraktion: Einstellungen
num_passes=2
进行多次提取以提高准确性 - Auswahl des Modells:对复杂内容使用
gemini-2.5-pro
,简单内容用gemini-2.5-flash
平衡速度
Praktisches Beispiel:result = lx.extract_from_url(url, prompt=prompt, examples=examples, max_workers=4, num_passes=2)
Diese Antwort stammt aus dem ArtikelLangExtract: Open-Source-Tool zur Extraktion strukturierter Daten aus TextDie