AI专业工具

 提交网站

dots.ocr：多语言文档布局解析的统一视觉-语言模型
dots.ocr 是一个强大的多语言文档解析工具，基于 1.7B 参数的视觉-语言模型（VLM），能够同时进行布局检测和内容识别。它在 OmniDocBench 等基准测试中展现了最先进的性能，特别是在文本、表格和阅读顺序解析方面表现出色。...
9.5 K直达0已赞
0已收藏
SnippAI：使用AI识别和分析截图内容的工具
Snippai 是一个基于人工智能的截图工具，旨在通过先进的AI算法提升截图体验。它不仅能捕捉屏幕内容，还能对截图中的公式、文本、表格、图像等进行智能分析和转换。用户可以通过Snippai将复杂的视觉信息转化为可编辑的格式，如LaTeX公式...
3.9 K直达0已赞
0已收藏
AI快站：一键对比OCR模型的文档解析工具
AI快站是一个免费的开源OCR模型竞技场，专注于文档和图片的智能解析。用户可以上传PDF或图片文件，通过一键对比七大主流OCR模型，快速找到适合的解析方案。网站支持多种格式文件，操作简单，无需复杂安装。AI快站提供高精度识别、快速处理和安全...
3.5 K直达0已赞
0已收藏
OCRmyPDF：将扫描PDF转为可搜索文本的开源工具
OCRmyPDF 是一个开源的命令行工具，专门用于为扫描的PDF文件添加光学字符识别（OCR）文本层，使其变为可搜索、可复制的文档。它基于Python开发，使用Tesseract OCR引擎，能准确识别图像中的文字，并将其嵌入PDF中，保持...
1.2 W直达0已赞
0已收藏
Docstrange：从文档和图片提取数据并转换为多种格式的工具
Docstrange 是一个开源的文档处理工具，专注于从多种格式的文档和图片中提取数据，并将其转换为 Markdown、JSON、CSV 或 HTML 等格式。它利用人工智能和先进的 OCR 技术，支持处理 PDF、Word 文档、Exce...
5.6 K直达0已赞
0已收藏
番石榴智能文档识别：离线文档与表格智能识别工具
番石榴智能文档识别（intelligent_document_recognition）是由开发者 jiangnanboy 开发的开源桌面软件，托管于 GitHub，专注于离线处理文档和表格的智能识别。软件整合了光学字符识别（OCR）和表格结...
2.9 K直达0已赞
0已收藏
OCRFlux：将PDF和图像转换为Markdown的轻量工具
OCRFlux 是一个开源的轻量工具，专注于将 PDF 文件和图像转换为清晰的 Markdown 格式。它由 ChatDOC 团队开发，基于 3B 参数的多模态大模型构建，能在普通硬件如 GTX 3090 上运行。工具擅长处理复杂文档布局，...
4.1 K直达0已赞
0已收藏
VOP：提取复杂图表与数学公式的OCR工具
Versatile OCR Program 是一个开源的光学字符识别（OCR）工具，专门为处理复杂的学术和教育文档设计。它能从PDF、图像等文件中提取文本、表格、数学公式、图表和示意图，并生成适合机器学习训练的结构化数据。支持多语言，包括英...
4.1 K直达0已赞
0已收藏
自动解析PDF内容并提取文字与表格的开源服务
它能自动分析PDF文档的布局，识别页面中的文字、标题、图片、表格、公式等元素，并判断它们的正确顺序。工具支持OCR功能，可以把扫描PDF转为可搜索文本。它基于Docker运行，提供两种模型：视觉模型（Vision Grid Transfor...
4.6 K直达0已赞
0已收藏
Bob 翻译
Bob 是一款专为 macOS 平台设计的翻译和 OCR（光学字符识别）软件。用户可以在任何应用程序中使用 Bob 进行翻译和 OCR 操作，支持多种翻译服务，包括火山、腾讯、阿里、百度、有道、Apple、Google、Microsoft、...
4.5 K直达0已赞
0已收藏
Ollama OCR：使用Ollama中视觉模型提取图像中的文本
Ollama OCR是一个强大的光学字符识别(OCR)工具包，它利用Ollama平台提供的最先进视觉语言模型来从图像中提取文本。该项目既可作为Python包使用，也提供了用户友好的Streamlit网页应用程序界面。它支持多种视觉模型，包括...
8.3 K直达0已赞
0已收藏
Doc2X
Doc2X 是一款功能强大的文档图片公式识别与转换工具，致力于提供高效智能的文档处理解决方案。无论是学术科研论文、教辅书籍、企业文档还是财报研报，Doc2X 都能精准识别 PDF 中的表格和公式，并一键转换为 Word、LaTeX、HTML...
4.2 K直达0已赞
0已收藏
STranslate
STranslate 是一个由 WPF 开发的即用即走的翻译和 OCR 工具。该工具旨在提供高效、便捷的翻译和光学字符识别（OCR）功能，适用于各种语言和文本类型。STranslate 是开源项目，用户可以自由下载和使用，同时也接受定制开发...
3.9 K直达0已赞
0已收藏
Llama OCR：利用免费Llama 3.2 Vision接口，三行代码将图像转换为Markdown的OCR库
Llama OCR 是一个基于 Llama 3.2 Vision 的 OCR（光学字符识别）库，能够将文档转换为 Markdown 格式。该库由 Nutlope 开发，使用 Together AI 提供的免费 Llama 3.2 接口进行图...
4.4 K直达0已赞
0已收藏
Easydict
Easydict 是一个专为 macOS 用户设计的简洁优雅的词典翻译应用。它支持多种翻译服务和离线 OCR 识别，能够轻松优雅地查找单词或翻译文本。Easydict 开箱即用，支持输入翻译、划词翻译和截图翻译，提供便捷的多语言翻译体验。 ...
4.8 K直达0已赞
0已收藏
Datalab：专用OCR识别AI模型，PDF转Markdown（开源/API）
Datalab 提供了一系列先进的AI模型，专注于OCR、布局分析、PDF转Markdown等功能。这些模型不仅性能卓越，而且易于使用，并且是开源的。平台上的Marker模型可以快速准确地将PDF转换为Markdown，包括表格和公式。Su...
5.4 K直达0已赞
0已收藏
TTime
TTime 是由 InkTimeRecord 发布在 GitHub 上的项目，是一款简洁高效的翻译软件。它主要提供输入、截图、划词及悬浮球翻译等功能，支持多种翻译源和文字识别服务，让用户能够快速进行语言转换和文字识别。此外，TTime 也具...
3.9 K直达0已赞
0已收藏

AI专业工具

快速查询站内AI工具