番石榴智能文档识别(intelligent_document_recognition
)是由开发者 jiangnanboy 开发的开源桌面软件,托管于 GitHub,专注于离线处理文档和表格的智能识别。软件整合了光学字符识别(OCR)和表格结构识别功能,无需联网运行,确保数据隐私安全。用户可从图片或 PDF 中提取文本和表格,保存为 txt、html 或 excel 格式。软件支持中英文界面,最新版本 v2.1 新增截图识别和图片列表删除功能,操作更便捷。番石榴智能文档识别适合个人、企业或教育用户处理文档,特别适用于需要高效整理数据的场景。
功能列表
- 离线 OCR 识别:从图片或 PDF 中提取文本,无需联网。
- 表格结构识别:自动解析表格内容,输出为 html 或 excel 格式。
- 截图识别(v2.1):鼠标框选屏幕内容,实时提取文字。
- 图片列表管理:支持删除左侧栏中的图片文件。
- 多格式输出:识别结果可保存为 txt、html 或 excel 文件。
- 中英文界面:提供中文和英文版本,操作界面友好。
使用帮助
安装流程
番石榴智能文档识别是一款桌面软件,需下载并安装到本地设备。以下是详细安装步骤:
- 下载软件
软件提供中文和英文版本的安装包,可从以下渠道下载最新版本(v2.1):- 中文版 :
- 百度网盘:
https://pan.baidu.com/s/1owzG74DLPxq6czEQC7ZNwQ
(提取码:nt3z) - Hugging Face:
https://huggingface.co/jiangnanboy/intelligent_document_recognition
- 百度网盘:
- 英文版 :
- 百度网盘:
https://pan.baidu.com/s/1Cv-hG6fMDUhj9dd3Et1RuA
(提取码:rkrd) - Hugging Face:
https://huggingface.co/jiangnanboy/intelligent_document_recognition
下载后,将压缩包解压到本地目录,例如C:\guava_document_recognition
。
- 百度网盘:
- 中文版 :
- 安装 Tesseract OCR
软件依赖 Tesseract OCR 引擎进行文字识别。安装步骤如下:- Windows :从 Tesseract GitHub 下载安装包并安装。
- Linux :运行命令
sudo apt-get install tesseract-ocr
。 - Mac :运行命令
brew install tesseract
。
安装完成后,确保 Tesseract 可执行文件路径已添加至系统环境变量(Windows 用户需手动配置)。
- 运行软件
解压软件包后,双击运行intelligent_document_recognition.exe
(Windows)或对应可执行文件。首次运行会加载 OCR 模型,可能需要几秒钟。软件启动后,选择中文或英文界面(根据下载版本)。
使用方法
番石榴智能文档识别提供直观的图形界面,支持以下功能的操作:
- 离线 OCR 识别
- 打开软件,点击“文件上传”按钮,导入图片(JPG、PNG)或 PDF 文件。
- 点击“OCR 识别”按钮,软件自动提取文件中的文本。
- 识别结果显示在右侧文本框,用户可编辑或保存为
txt
或html
格式:- 点击“保存”按钮,选择输出格式和保存路径。
- 示例:上传一张会议记录图片,软件提取文字并保存为
notes.txt
。
- 表格结构识别
- 上传包含表格的图片或 PDF 文件。
- 选择“表格识别”选项,软件自动解析表格内容。
- 结果可保存为
html
或excel
格式:- 点击“导出表格”按钮,选择格式并保存。
- 示例:上传财务报表 PDF,软件生成
report.xlsx
文件,包含完整表格数据。
- 截图识别(v2.1 新功能)
- 点击“截图”按钮,软件界面自动隐藏。
- 用鼠标框选屏幕上的目标区域(如网页或文档内容)。
- 释放鼠标后,软件识别框选区域的文字并显示在文本框中。
- 用户可编辑或保存结果为
txt
或html
。 - 示例:框选屏幕上的课程表,软件提取文字并保存为
schedule.txt
。
- 图片列表管理
- 软件左侧栏显示已上传的图片列表。
- 选中不需要的图片,点击“删除”按钮或按
Delete
键移除。 - 此功能适合批量处理时清理无用文件。
- 中英文界面切换
- 软件根据下载版本显示中文或英文界面,操作逻辑一致。
- 例如,中文版显示“文件上传”,英文版显示“Upload File”。
- 用户可根据需求选择适合的语言版本。
- 批量处理
- 将多个图片或 PDF 放入软件指定文件夹(如
input
文件夹)。 - 选择“批量识别”功能,软件自动处理所有文件并保存结果。
- 输出文件默认保存在
output
文件夹,可在设置中更改路径。
- 将多个图片或 PDF 放入软件指定文件夹(如
配置与优化
- 调整输出格式 :编辑软件根目录的
config.ini
文件,设置默认输出格式或保存路径:
[Output]
default_format = txt
save_path = ./output
- 提高识别准确性 :确保输入文件清晰,高分辨率图片(至少 300 DPI)效果最佳。模糊或低质量文件可能导致识别错误。
- 日志调试 :如识别结果不准确,查看
logs
文件夹中的日志文件,分析错误原因。 - 性能优化 :处理大型文件时,关闭其他占用资源的程序以提高处理速度。
注意事项
- 文件质量 :上传的图片或 PDF 需清晰,避免模糊或倾斜以确保识别准确。
- 系统兼容性 :软件支持 Windows、Linux 和 Mac,需正确安装 Tesseract OCR。
- 数据安全 :软件完全离线运行,数据不上传云端,适合处理敏感信息。
- 更新软件 :定期检查百度网盘或 Hugging Face 下载最新版本,覆盖旧版本文件夹即可。
- 联系支持 :如遇问题,可通过微信公众号“番石榴AI”联系开发者。
应用场景
- 企业文档管理
企业用户上传扫描的合同、发票或报表,提取文本和表格,快速生成可编辑文档,提高办公效率。 - 学术研究支持
研究人员处理学术论文 PDF,提取关键文本或表格,整理为 txt 或 excel 文件,便于数据分析。 - 教育资源整理
教师将试卷或教材扫描件上传,提取题目或表格内容,整理教学资料,支持离线操作。 - 个人效率提升
用户通过截图功能快速提取屏幕上的文字,如会议记录或网页内容,保存为可编辑文件。
QA
- 番石榴智能文档识别是否需要联网?
软件完全离线运行,数据处理在本地完成,保障隐私安全。 - 支持哪些文件格式?
支持 JPG、PNG、PDF 等格式,推荐使用高分辨率文件以提高识别效果。 - 如何处理识别错误的文本?
检查输入文件清晰度,或在软件设置中调整 OCR 灵敏度。若问题未解决,联系开发者反馈。 - 表格识别是否支持复杂表格?
支持规则表格,复杂嵌套表格可能需预处理图片以提高准确性。 - 如何更新到最新版本?
从百度网盘或 Hugging Face 下载 v2.1 版本,解压后覆盖旧版本文件夹。