番石榴智能文档识别概述
番石榴智能文档识别(intelligent_document_recognition)是由开发者 jiangnanboy 开发的开源桌面软件,托管于 GitHub,专注于离线处理文档和表格的智能识别。该软件整合了光学字符识别(OCR)和表格结构识别功能,无需联网运行,确保数据隐私安全。
core functionality
- Offline OCR Recognition:从图片或 PDF 中提取文本,无需联网。
- Form Structure Recognition:自动解析表格内容,输出为 html 或 excel 格式。
- 截图识别(v2.1 新增):鼠标框选屏幕内容,实时提取文字。
- Image List Management:支持删除左侧栏中的图片文件。
- Multi-format output:识别结果可保存为 txt、html 或 excel 文件。
- Chinese-English interface:提供中文和英文版本,操作界面友好。
This answer comes from the articleGuava Intelligent Document Recognition: Intelligent Recognition Tool for Offline Documents and FormsThe