海外访问：www.kdjingpai.com

Ctrl + D 收藏本站

数据提取

 提交网站

SmolDocling：小体积高效处理文档的视觉语言模型
SmolDocling 是由 ds4sd 团队与 IBM 合作开发的一个视觉语言模型（VLM），基于 SmolVLM-256M 打造，托管在 Hugging Face 平台。它体积小，只有 256M 参数，却是全球最小的 VLM。它的核心功...
3.2 K直达0已赞
0已收藏
飞桨 PP-TableMagic：复杂表格结构化信息提取神器
表格识别的目标是解析图片中的表格，准确识别表格结构和单元格位置，并将其还原为结构化的表格格式（例如 HTML）。在当今信息化时代，大量重要的表格数据仍以非结构化状态存在（如扫描文档中的信息统计表图片、PDF 财务报表中的数据统计表等），无法...
3.0 K直达0已赞
0已收藏
Mistral OCR：94.89%总体精度，1000 页/30秒，只需1美元
在人类文明的历史长河中，每一次信息获取和解析方式的飞跃，都深刻地推动着社会进步。从远古的象形文字，到便携的纸莎草，再到后来出现的印刷术以及当今的数字化浪潮，每一次技术革新都极大地拓展了人类知识的传播范围和应用深度，进而成为了孕育新一轮创新的...
3.4 K直达0已赞
0已收藏
Firecrawl MCP Server：基于 Firecrawl 的网页爬虫 MCP 服务
Firecrawl MCP Server 是由 MendableAI 开发的一款开源工具，基于 Model Context Protocol (MCP) 协议实现，与 Firecrawl API 集成，提供强大的网页抓取和数据提取功能。它专...
4.1 K直达0已赞
0已收藏
par_scrape：智能提取网页数据的爬虫工具
par_scrape 是一个基于 Python 的开源网页爬虫工具，由开发者 Paul Robello 在 GitHub 上推出，旨在帮助用户从网页中智能提取数据。它整合了 Selenium 和 Playwright 两种强大的浏览器自动化...
2.4 K直达0已赞
0已收藏
PDF-Extract-Kit：提取复杂结构PDF内容的开源工具
PDF-Extract-Kit 是一个由 OpenDataLab 团队开发的开源项目，专注于从复杂多样的 PDF 文档中高效提取高质量内容。它集成了先进的文档解析技术，支持布局检测、公式识别、表格提取和 OCR 等功能，适用于学术论文、研究...
4.1 K直达0已赞
0已收藏
Crawl4LLM：为LLM预训练提供的高效网页爬取工具
Crawl4LLM 是一个由清华大学和卡内基梅隆大学联合开发的开源项目，专注于优化大模型（LLM）预训练的网页爬取效率。它通过智能选择高质量网页数据，显著减少无效爬取，号称能将原本需要爬取100个网页的工作量缩减到21个，同时保持预训练效果...
2.6 K直达0已赞
0已收藏
Markdownify MCP Server：基于MCP协议将各种内容转换为Markdown格式
Markdownify MCP Server 是一个基于 Model Context Protocol（模型上下文协议）的开源工具，托管于 GitHub，由开发者 Zach Caceres 创建。它专注于将多种文件类型（如 PDF、图像、音...
3.4 K直达0已赞
0已收藏
CodeWeaver：将代码结构和内容自动生成Markdown文档
CodeWeaver 是一个命令行工具，旨在将代码库编织成单个、易于浏览的Markdown文档。它通过递归扫描目录，生成项目文件层次结构的结构化表示，并在代码块中嵌入每个文件的内容。这款工具的设计目标是简化代码库的分享和信息提取，特别适用于...
2.2 K直达0已赞
0已收藏
Kreuzberg：从任何文档中提取文本的开源工具
Kreuzberg是一个用于简化PDF文件文本提取的库，旨在提供简单、无忧的文本提取解决方案。该库特别适合需要进行文本提取的RAG（Retrieval-Augmented Generation）服务。Kreuzberg支持本地运行，易于控制...
2.9 K直达0已赞
0已收藏
Instructor：简化大语言模型结构化输出工作流的Python库
Instructor 是一个流行的 Python 库，专为处理大语言模型（LLMs）的结构化输出而设计。它基于 Pydantic 构建，提供了一个简单、透明且用户友好的 API，用于管理数据验证、重试和流式响应。Instructor 每月下...
3.3 K直达0已赞
0已收藏
zChunk：基于Llama-70B的通用语义分块策略
zChunk是由ZeroEntropy开发的一种新型分块策略，旨在为通用语义分块提供解决方案。该策略基于Llama-70B模型，通过提示生成分块，优化了文档的分块过程，确保在信息检索时保持高信噪比。zChunk特别适用于需要高精度检索的RA...
2.1 K直达0已赞
0已收藏
Pulse：文档处理与数据提取的商业解决方案
Pulse 是一个专注于文档处理和数据提取的智能平台，旨在帮助企业和开发者高效地解析和处理各种复杂文档。通过其先进的计算机视觉和多模态处理技术，Pulse 能够准确地从文本、图像、表格等多种格式的文档中提取结构化数据。该平台支持多种行业应用...
2.4 K直达0已赞
0已收藏
Rowfill：批量提取文档结构化信息并自动化分析
Rowfill 是一个开源的文档处理平台，专为知识工作者设计。它利用先进的人工智能技术，从复杂的文档、图像和PDF中提取、分析和处理数据。Rowfill 支持本地大语言模型（LLM）和OpenAI视觉模型，确保数据隐私和安全。该平台提供了高...
2.4 K直达0已赞
0已收藏
PPTX2MD：将PPTX文件转换为Markdown的专用工具
PPTX2MD是一个开源工具，旨在将PowerPoint的PPTX文件转换为Markdown格式。该工具由GitHub用户ssine开发，支持保留标题、列表、文本格式（如粗体、斜体、颜色和超链接）、图片和表格等多种格式。PPTX2MD还支持...
3.1 K直达0已赞
0已收藏
Repomix：打包代码库为一个文本文件以便大模型检索
Repomix（前称Repopack）是一款开源工具，专门用于将整个代码库打包成一个单一的、AI友好的文件。这个工具可以让开发者轻松地将他们的代码库提供给大语言模型（如Claude、ChatGPT和Gemini）进行分析和处理。其设计初衷是...
3.6 K直达0已赞
0已收藏
Yek：读取git仓库文本文件并快速分块，以供大模型使用
Yek 是一个基于 Rust 的快速工具，用于读取存储库或目录中的文本文件，将其分块并序列化以供大型语言模型（LLM）使用。该工具默认使用 .gitignore 规则跳过不需要的文件，并利用 Git 历史推断重要文件。Yek 可以根据近似“...
3.0 K直达0已赞
0已收藏
LlamaParse：Llamaindex推出的高品质解析文档，提取数据服务（每日免费提取1000页）
LlamaParse 是一个强大的文档解析工具，能够处理复杂的文档如 PDF、PowerPoint、Word 文档和电子表格，并将其转换为结构化数据。LlamaParse 提供多种使用方式，包括独立的 REST API、Python 包、T...
3.4 K直达0已赞
0已收藏
UnDatas.IO：精准解析各类非结构化数据的API服务（付费）
UnDatas.IO 是一个专注于解析和处理非结构化数据的平台。它利用先进的技术，自动识别文档布局，分类表格、图像、公式和文本，极大地简化了数据处理流程。该平台不仅能够节省大量的数据整理时间，还能帮助用户从数据中提取有价值的见解，做出更具战...
2.6 K直达0已赞
0已收藏

点击加载更多