海外访问：www.kdjingpai.com

Ctrl + D 收藏本站

OCR

 提交网站

DeepSeek-OCR：一个开源的光学字符识别（OCR）工具
DeepSeek-OCR 是由深度求索（DeepSeek-AI）公司开发并开源的一款光学字符识别（OCR）工具。它提出了一个名为“上下文光学压缩”的新方法，从大语言模型（LLM）的角度来重新看待视觉编码器的角色。这个工具不是简单地识别图...
10-25 2.3 K0已赞
dots.ocr：多语言文档布局解析的统一视觉-语言模型
dots.ocr 是一个强大的多语言文档解析工具，基于 1.7B 参数的视觉-语言模型（VLM），能够同时进行布局检测和内容识别。它在 OmniDocBench 等基准测试中展现了最先进的性能，特别是在文本、表格和阅读顺序解析方面表现出色。...
08-10 7.3 K0已赞
SnippAI：使用AI识别和分析截图内容的工具
Snippai 是一个基于人工智能的截图工具，旨在通过先进的AI算法提升截图体验。它不仅能捕捉屏幕内容，还能对截图中的公式、文本、表格、图像等进行智能分析和转换。用户可以通过Snippai将复杂的视觉信息转化为可编辑的格式，如LaTeX公式...
08-10 2.2 K0已赞
AI快站：一键对比OCR模型的文档解析工具
AI快站是一个免费的开源OCR模型竞技场，专注于文档和图片的智能解析。用户可以上传PDF或图片文件，通过一键对比七大主流OCR模型，快速找到适合的解析方案。网站支持多种格式文件，操作简单，无需复杂安装。AI快站提供高精度识别、快速处理和安全...
08-09 2.0 K0已赞
Docstrange：从文档和图片提取数据并转换为多种格式的工具
Docstrange 是一个开源的文档处理工具，专注于从多种格式的文档和图片中提取数据，并将其转换为 Markdown、JSON、CSV 或 HTML 等格式。它利用人工智能和先进的 OCR 技术，支持处理 PDF、Word 文档、Exce...
08-04 3.7 K0已赞
番石榴智能文档识别：离线文档与表格智能识别工具
番石榴智能文档识别（intelligent_document_recognition）是由开发者 jiangnanboy 开发的开源桌面软件，托管于 GitHub，专注于离线处理文档和表格的智能识别。软件整合了光学字符识别（OCR）和表格结...
07-29 1.7 K0已赞
OCRFlux：将PDF和图像转换为Markdown的轻量工具
OCRFlux 是一个开源的轻量工具，专注于将 PDF 文件和图像转换为清晰的 Markdown 格式。它由 ChatDOC 团队开发，基于 3B 参数的多模态大模型构建，能在普通硬件如 GTX 3090 上运行。工具擅长处理复杂文档布局，...
07-22 2.6 K0已赞
VOP：提取复杂图表与数学公式的OCR工具
Versatile OCR Program 是一个开源的光学字符识别（OCR）工具，专门为处理复杂的学术和教育文档设计。它能从PDF、图像等文件中提取文本、表格、数学公式、图表和示意图，并生成适合机器学习训练的结构化数据。支持多语言，包括英...
04-12 2.7 K0已赞
自动解析PDF内容并提取文字与表格的开源服务
它能自动分析PDF文档的布局，识别页面中的文字、标题、图片、表格、公式等元素，并判断它们的正确顺序。工具支持OCR功能，可以把扫描PDF转为可搜索文本。它基于Docker运行，提供两种模型：视觉模型（Vision Grid Transfor...
04-09 3.2 K0已赞
RolmOCR：识别手写和倾斜字符的文档OCR模型
RolmOCR 是由 Reducto AI 团队开发的一款开源光学字符识别（OCR）工具，基于 Qwen2.5-VL-7B 视觉语言模型。它能从图片和 PDF 文件中提取文字，速度比同类工具 olmOCR 更快，内存占用更低。RolmOCR...
04-07 3.9 K0已赞
uniOCR：跨平台开源的文字识别工具
uniOCR 是一个开源的文字识别工具，由 mediar-ai 团队开发。它基于 Rust 语言编写，支持 macOS、Windows 和 Linux 系统。用户可以通过它从图片中提取文字，操作简单且免费。uniOCR 的核心特点是跨平台支...
04-04 2.6 K0已赞
PDF Craft：PDF扫描文件转Markdown的开源工具
PDF Craft 是一个开源工具，专为扫描书籍的PDF设计，能将其转换为Markdown格式。它由 oomol-lab 开发，托管在 GitHub 上，适合喜欢整理电子书的用户。工具通过本地AI模型运行，无需联网，既保护隐私又方便操作。它...
03-24 3.7 K0已赞
SmolDocling：小体积高效处理文档的视觉语言模型
SmolDocling 是由 ds4sd 团队与 IBM 合作开发的一个视觉语言模型（VLM），基于 SmolVLM-256M 打造，托管在 Hugging Face 平台。它体积小，只有 256M 参数，却是全球最小的 VLM。它的核心功...
03-18 3.2 K0已赞
Mistral OCR：94.89%总体精度，1000 页/30秒，只需1美元
在人类文明的历史长河中，每一次信息获取和解析方式的飞跃，都深刻地推动着社会进步。从远古的象形文字，到便携的纸莎草，再到后来出现的印刷术以及当今的数字化浪潮，每一次技术革新都极大地拓展了人类知识的传播范围和应用深度，进而成为了孕育新一轮创新的...
03-07 3.3 K0已赞
Ollama OCR：使用Ollama中视觉模型提取图像中的文本
Ollama OCR是一个强大的光学字符识别(OCR)工具包，它利用Ollama平台提供的最先进视觉语言模型来从图像中提取文本。该项目既可作为Python包使用，也提供了用户友好的Streamlit网页应用程序界面。它支持多种视觉模型，包括...
01-10 6.7 K0已赞
STranslate
STranslate 是一个由 WPF 开发的即用即走的翻译和 OCR 工具。该工具旨在提供高效、便捷的翻译和光学字符识别（OCR）功能，适用于各种语言和文本类型。STranslate 是开源项目，用户可以自由下载和使用，同时也接受定制开发...
12-25 3.0 K0已赞
VisionParser：高精度处理收据和发票的OCR工具，提供API
VisionParser是一款专为处理收据和发票而设计的OCR（光学字符识别）工具。通过先进的生成式AI技术，VisionParser能够快速、准确地将各种收据和发票转换为结构化数据，适用于零售、餐饮、B2B服务等多种业务场景。其灵活的AP...
12-18 2.5 K0已赞
Chunkr：使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务
Chunkr 是一个自托管的 API，专门用于将 PDF、PPTX、DOCX 和 Excel 文件转换为适合 RAG（检索增强生成）和 LLM（大语言模型）使用的数据。该项目由 Lumina AI Inc. 开发，利用先进的视觉模型进行文档...
12-13 2.9 K0已赞
Llama OCR：利用免费Llama 3.2 Vision接口，三行代码将图像转换为Markdown的OCR库
Llama OCR 是一个基于 Llama 3.2 Vision 的 OCR（光学字符识别）库，能够将文档转换为 Markdown 格式。该库由 Nutlope 开发，使用 Together AI 提供的免费 Llama 3.2 接口进行图...
12-11 3.6 K0已赞