针对超长文档处理,LangExtract提供了智能优化方案:
- processamento paralelo: Ao definir o
max_workers
parâmetros (por exemplomax_workers=4
)启动多线程处理 - Separação inteligente:工具会自动将长文档分割为合理片段,保持上下文连贯性
- extração multiround: Configurações
num_passes=2
进行多次提取以提高准确性 - Seleção de modelos:对复杂内容使用
gemini-2.5-pro
,简单内容用gemini-2.5-flash
平衡速度
Exemplo prático:result = lx.extract_from_url(url, prompt=prompt, examples=examples, max_workers=4, num_passes=2)
Essa resposta foi extraída do artigoLangExtract: ferramenta de código aberto para extrair dados estruturados de textosO