番石榴智能文档识别概述
番石榴智能文档识别(intelligent_document_recognition)是由开发者 jiangnanboy 开发的开源桌面软件,托管于 GitHub,专注于离线处理文档和表格的智能识别。该软件整合了光学字符识别(OCR)和表格结构识别功能,无需联网运行,确保数据隐私安全。
核心功能
- 离线 OCR 识别:从图片或 PDF 中提取文本,无需联网。
- 表格结构识别:自动解析表格内容,输出为 html 或 excel 格式。
- 截图识别(v2.1 新增):鼠标框选屏幕内容,实时提取文字。
- 图片列表管理:支持删除左侧栏中的图片文件。
- 多格式输出:识别结果可保存为 txt、html 或 excel 文件。
- 中英文界面:提供中文和英文版本,操作界面友好。
本答案来源于文章《番石榴智能文档识别:离线文档与表格智能识别工具》