LangExtract 通过以下机制处理长文档:
- 智能分块:自动将长文档分割为适当大小的文本块
- 并行处理:通过设置
max_workers
参数控制线程数(如处理整本《罗密欧与朱丽叶》时可采用 4 线程) - 多轮提取:通过
num_passes
参数设置多次提取以提高准确性
优化建议:
- 处理超长文档时建议使用 Tier 2 Gemini 配额以避免速率限制
- 对复杂文档可切换到更强大的模型(如从
gemini-2.5-flash
切换到gemini-2.5-pro
) - 确保网络连接稳定,特别是使用云端模型时
- 保存结果时可采用
save_annotated_documents
方法生成 JSONL 格式文件
本答案来源于文章《LangExtract:从文本提取结构化数据的开源工具》