AutoForm:从任意文档中提取数据并自动填充网页表单的AI工具
AutoForm是一个使用人工智能技术,旨在将用户从重复的数据复制和粘贴工作中解放出来的工具。 它的核心功能是作为一个“AI数据录入代理”,能够读取和理解多种格式的非结构化文件,例如PDF文档、电子表格、邮件、网...
OCRmyPDF:将扫描PDF转为可搜索文本的开源工具
OCRmyPDF 是一个开源的命令行工具,专门用于为扫描的PDF文件添加光学字符识别(OCR)文本层,使其变为可搜索、可复制的文档。它基于Python开发,使用Tesseract OCR引擎,能准确识别图像中的文字,并将其嵌入PDF中...
Docstrange:从文档和图片提取数据并转换为多种格式的工具
Docstrange 是一个开源的文档处理工具,专注于从多种格式的文档和图片中提取数据,并将其转换为 Markdown、JSON、CSV 或 HTML 等格式。它利用人工智能和先进的 OCR 技术,支持处理 PDF、Word 文档、Exce...
LangExtract:从文本提取结构化数据的开源工具
LangExtract 是 Google 开发的一款开源 Python 库,专注于从非结构化文本中提取结构化数据。它利用大型语言模型(LLM)如 Google Gemini 系列,结合精确的源文本定位和交互式可视化功能,帮助用户快速将复杂文...
Chat4Data:通过自然语言提取网页数据的AI工具
Chat4Data 是一个基于人工智能的 Chrome 浏览器扩展工具,专注于简化网页数据提取。它通过自然语言对话让用户轻松获取网页上的结构化数据,无需编写代码。用户只需用简单的语言描述所需数据,如产品名称、价格或...
ytt-mcp:获取和处理YouTube视频字幕的服务器工具
ytt-mcp是一个开源的MCP(模型上下文协议)服务器工具,专门用于从YouTube视频中获取字幕并进行处理。它由cottongeeks团队开发,托管在GitHub上,旨在帮助用户通过简单命令或AI工具快速提取视频字幕,并支持进一...
WaterCrawl:将网页内容转化为大模型可用的数据
WaterCrawl 是一个强大的开源网页爬虫工具,旨在帮助用户从网页中提取数据并将其转化为适合大语言模型(LLM)处理的数据格式。它基于 Python 开发,结合 Django、Scrapy 和 Celery 技术,支持高效的网页爬取和数...
Dolphin
Dolphin 是由 ByteDance 开发的一款开源文档图像解析工具,专注于处理复杂的文档图像,如包含文本、表格、公式和图片的扫描件或 PDF 文件。它采用“先分析后解析”的方法,通过两阶段处理实现高效解析:首先分析文...
OneFileLLM:整合多种数据源为单一文本文件
OneFileLLM 是一个开源命令行工具,旨在将多种数据源整合成单一文本文件,方便输入大语言模型(LLM)。它支持处理 GitHub 仓库、ArXiv 论文、YouTube 视频转录、网页内容、Sci-Hub 论文和本地文件,自动生成结构...
Chatlog:提取和查询微信聊天记录的开源工具
Chatlog 是一个开源工具,专注于从微信本地数据库提取和查询聊天记录。它支持微信 3.x 和 4.0 版本,覆盖 Windows 和 macOS 系统。用户可以通过命令行、终端界面或 HTTP API 操作,查看聊天记录、联系人、群聊和...
DevDocs:快速抓取并整理技术文档的MCP服务
DevDocs 是一个完全免费的开源工具,由 CyberAGI 团队开发,托管在 GitHub 上。它专为程序员和软件开发者设计,能从技术文档的网址开始,自动爬取相关页面并整理成简洁的 Markdown 或 JSON 文件。它内置 MCP ...
基于Workers AI免费将多种文件转为Markdown格式
serverless-markdown-convertor 是一个免费的开源工具,基于 Cloudflare Worker 和 Workers AI 开发,能将多种文件转换为 Markdown 格式。它支持 PDF、图片、Office 文档...
GPT-Crawler:自动爬取网站内容生成知识库文件
GPT-Crawler 是由 BuilderIO 团队开发的一个开源工具,托管在 GitHub 上。它通过输入一个或多个网站 URL,爬取页面内容,生成结构化的知识文件(output.json),用于创建自定义 GPT 或 AI 助手。用户...
pure.md:网址前插入“pure.md/”即可提取干净的文本
pure.md 是一个为 AI 代理和开发者设计的工具,主打快速将网页内容或文件转为 Markdown 格式。它通过代理服务绕过反爬虫限制,提取网页核心数据,并输出简洁的 Markdown 文件。无论是动态网页、PDF 文件还是社交...
Cloudsquid:上传文档并描述要求智能提取结构化数据
Cloudsquid 是一家 2023 年成立于德国柏林的公司,专注于用人工智能简化文件处理。它的核心产品是一个在线数据提取平台,用户只需上传 PDF、图片、音频、视频等文件,简单说明需要提取的数据,比如“找出姓名和金...
PDF Craft:PDF扫描文件转Markdown的开源工具
PDF Craft 是一个开源工具,专为扫描书籍的PDF设计,能将其转换为Markdown格式。它由 oomol-lab 开发,托管在 GitHub 上,适合喜欢整理电子书的用户。工具通过本地AI模型运行,无需联网,既保护隐私又方便操作。....
Supametas.AI:提取非结构化数据为LLM高可用数据
Supametas.AI 是一个数据处理平台,专门把网页、文档、音视频等杂乱信息整理成AI能用的结构化数据。它支持从多个来源收集数据,包括网页链接、API、本地文件等,然后输出为 JSON 或 Markdown 格式。平台无需编程...
MarkPDFDown:基于多模态模型将PDF转为Markdown文件
MarkPDFDown 是一个开源工具。它利用多模态大语言模型,把 PDF 文件转为 Markdown 格式。开发者是 GitHub 用户 jorben。这个工具的目标很简单:让 PDF 文档变得更易编辑和分享。它能识别文档中的标题、列表、...
SmolDocling:小体积高效处理文档的视觉语言模型
SmolDocling 是由 ds4sd 团队与 IBM 合作开发的一个视觉语言模型(VLM),基于 SmolVLM-256M 打造,托管在 Hugging Face 平台。它体积小,只有 256M 参数,却是全球最小的 VLM。它的核心功...
回顶部