针对超长文档处理,LangExtract提供了智能优化方案:
- 并行处理:通过设置
max_workers
参数(如max_workers=4
)启动多线程处理 - 智能分块:工具会自动将长文档分割为合理片段,保持上下文连贯性
- 多轮提取:设置
num_passes=2
进行多次提取以提高准确性 - 模型选择:对复杂内容使用
gemini-2.5-pro
,简单内容用gemini-2.5-flash
平衡速度
实际操作示例:result = lx.extract_from_url(url, prompt=prompt, examples=examples, max_workers=4, num_passes=2)
本答案来源于文章《LangExtract:从文本提取结构化数据的开源工具》