番石榴智能文档识别概述
番石榴智能文档识别(intelligent_document_recognition)是由开发者 jiangnanboy 开发的开源桌面软件,托管于 GitHub,专注于离线处理文档和表格的智能识别。该软件整合了光学字符识别(OCR)和表格结构识别功能,无需联网运行,确保数据隐私安全。
funcionalidade principal
- Reconhecimento de OCR off-line:从图片或 PDF 中提取文本,无需联网。
- Identificação da estrutura do formulário:自动解析表格内容,输出为 html 或 excel 格式。
- 截图识别(v2.1 新增):鼠标框选屏幕内容,实时提取文字。
- Gerenciamento da lista de imagens:支持删除左侧栏中的图片文件。
- Saída em vários formatos:识别结果可保存为 txt、html 或 excel 文件。
- Interface chinês-inglês:提供中文和英文版本,操作界面友好。
Essa resposta foi extraída do artigoGuava Intelligent Document Recognition: Ferramenta de reconhecimento inteligente para documentos e formulários off-lineO