dots.ocr:多语言文档布局解析的统一视觉-语言模型
dots.ocr 是一个强大的多语言文档解析工具,基于 1.7B 参数的视觉-语言模型(VLM),能够同时进行布局检测和内容识别。它在 OmniDocBench 等基准测试中展现了最先进的性能,特别是在文本、表格和阅读顺序解析方面...
SnippAI:使用AI识别和分析截图内容的工具
Snippai 是一个基于人工智能的截图工具,旨在通过先进的AI算法提升截图体验。它不仅能捕捉屏幕内容,还能对截图中的公式、文本、表格、图像等进行智能分析和转换。用户可以通过Snippai将复杂的视觉信息转化为可编...
AI快站:一键对比OCR模型的文档解析工具
AI快站是一个免费的开源OCR模型竞技场,专注于文档和图片的智能解析。用户可以上传PDF或图片文件,通过一键对比七大主流OCR模型,快速找到适合的解析方案。网站支持多种格式文件,操作简单,无需复杂安装。AI快站...
OCRmyPDF:将扫描PDF转为可搜索文本的开源工具
OCRmyPDF 是一个开源的命令行工具,专门用于为扫描的PDF文件添加光学字符识别(OCR)文本层,使其变为可搜索、可复制的文档。它基于Python开发,使用Tesseract OCR引擎,能准确识别图像中的文字,并将其嵌入PDF中...
Docstrange:从文档和图片提取数据并转换为多种格式的工具
Docstrange 是一个开源的文档处理工具,专注于从多种格式的文档和图片中提取数据,并将其转换为 Markdown、JSON、CSV 或 HTML 等格式。它利用人工智能和先进的 OCR 技术,支持处理 PDF、Word 文档、Exce...
番石榴智能文档识别:离线文档与表格智能识别工具
番石榴智能文档识别(intelligent_document_recognition)是由开发者 jiangnanboy 开发的开源桌面软件,托管于 GitHub,专注于离线处理文档和表格的智能识别。软件整合了光学字符识别(OCR)和表格结...
OCRFlux:将PDF和图像转换为Markdown的轻量工具
OCRFlux 是一个开源的轻量工具,专注于将 PDF 文件和图像转换为清晰的 Markdown 格式。它由 ChatDOC 团队开发,基于 3B 参数的多模态大模型构建,能在普通硬件如 GTX 3090 上运行。工具擅长处理复杂文档布局,...
VOP:提取复杂图表与数学公式的OCR工具
Versatile OCR Program 是一个开源的光学字符识别(OCR)工具,专门为处理复杂的学术和教育文档设计。它能从PDF、图像等文件中提取文本、表格、数学公式、图表和示意图,并生成适合机器学习训练的结构化数据。支...
自动解析PDF内容并提取文字与表格的开源服务
它能自动分析PDF文档的布局,识别页面中的文字、标题、图片、表格、公式等元素,并判断它们的正确顺序。工具支持OCR功能,可以把扫描PDF转为可搜索文本。它基于Docker运行,提供两种模型:视觉模型(Vision Grid ...
Bob 翻译
Bob 是一款专为 macOS 平台设计的翻译和 OCR(光学字符识别)软件。用户可以在任何应用程序中使用 Bob 进行翻译和 OCR 操作,支持多种翻译服务,包括火山、腾讯、阿里、百度、有道、Apple、Google、Microsoft、...
Ollama OCR:使用Ollama中视觉模型提取图像中的文本
Ollama OCR是一个强大的光学字符识别(OCR)工具包,它利用Ollama平台提供的最先进视觉语言模型来从图像中提取文本。该项目既可作为Python包使用,也提供了用户友好的Streamlit网页应用程序界面。它支持多种视觉模...
Doc2X
Doc2X 是一款功能强大的文档图片公式识别与转换工具,致力于提供高效智能的文档处理解决方案。无论是学术科研论文、教辅书籍、企业文档还是财报研报,Doc2X 都能精准识别 PDF 中的表格和公式,并一键转换为 Word...
STranslate
STranslate 是一个由 WPF 开发的即用即走的翻译和 OCR 工具。该工具旨在提供高效、便捷的翻译和光学字符识别(OCR)功能,适用于各种语言和文本类型。STranslate 是开源项目,用户可以自由下载和使用,同时也接受...
Llama OCR:利用免费Llama 3.2 Vision接口,三行代码将图像转换为Markdown的OCR库
Llama OCR 是一个基于 Llama 3.2 Vision 的 OCR(光学字符识别)库,能够将文档转换为 Markdown 格式。该库由 Nutlope 开发,使用 Together AI 提供的免费 Llama 3.2 接口进行图...
Easydict
Easydict 是一个专为 macOS 用户设计的简洁优雅的词典翻译应用。它支持多种翻译服务和离线 OCR 识别,能够轻松优雅地查找单词或翻译文本。Easydict 开箱即用,支持输入翻译、划词翻译和截图翻译,提供便捷的多语...
Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)
Datalab 提供了一系列先进的AI模型,专注于OCR、布局分析、PDF转Markdown等功能。这些模型不仅性能卓越,而且易于使用,并且是开源的。平台上的Marker模型可以快速准确地将PDF转换为Markdown,包括表格和公式。Su...
TTime
TTime 是由 InkTimeRecord 发布在 GitHub 上的项目,是一款简洁高效的翻译软件。它主要提供输入、截图、划词及悬浮球翻译等功能,支持多种翻译源和文字识别服务,让用户能够快速进行语言转换和文字识别。此外,TT...
回顶部