LangExtract 是 Google 开发的一款开源 Python 库,专注于从非结构化文本中提取结构化数据。它利用大型语言模型(如 Google Gemini 系列)并结合精确的源文本定位和交互式可视化功能,帮助用户将复杂文本快速转化为清晰的数据格式。其主要功能包括:
- 支持多种语言模型(云端和本地模型)
- 结构化信息提取(实体、关系和属性)并生成 JSONL 格式输出
- 交互式可视化功能,生成 HTML 文件以方便查看和分析提取结果
- 高效处理长文档(如整本小说或医疗报告)
- 通过提示词和少量示例自定义提取任务
- 特别适用于医疗文本处理(如临床笔记中的药物名称、剂量等信息)
- 支持 API 集成
This answer comes from the articleLangExtract: open source tools to extract structured data from textThe