AutoForm是一个使用人工智能技术,旨在将用户从重复的数据复制和粘贴工作中解放出来的工具。 它的核心功能是作为一个“AI数据录入代理”,能够读取和理解多种格式的非结构化文件,例如PDF文档、电子表格、邮件、网...
OCRmyPDF 是一个开源的命令行工具,专门用于为扫描的PDF文件添加光学字符识别(OCR)文本层,使其变为可搜索、可复制的文档。它基于Python开发,使用Tesseract OCR引擎,能准确识别图像中的文字,并将其嵌入PDF中...
Docstrange 是一个开源的文档处理工具,专注于从多种格式的文档和图片中提取数据,并将其转换为 Markdown、JSON、CSV 或 HTML 等格式。它利用人工智能和先进的 OCR 技术,支持处理 PDF、Word 文档、Exce...
LangExtract 是 Google 开发的一款开源 Python 库,专注于从非结构化文本中提取结构化数据。它利用大型语言模型(LLM)如 Google Gemini 系列,结合精确的源文本定位和交互式可视化功能,帮助用户快速将复杂文...
MD-TOOL 是一个免费的在线工具集网站,主要提供Markdown格式与其他文件格式之间的转换服务。这个网站的核心功能包括将Markdown文本实时转换为HTML代码、将HTML代码转换为Markdown文本,以及将Markdown文档转...
OCRFlux 是一个开源的轻量工具,专注于将 PDF 文件和图像转换为清晰的 Markdown 格式。它由 ChatDOC 团队开发,基于 3B 参数的多模态大模型构建,能在普通硬件如 GTX 3090 上运行。工具擅长处理复杂文档布局,...
ytt-mcp是一个开源的MCP(模型上下文协议)服务器工具,专门用于从YouTube视频中获取字幕并进行处理。它由cottongeeks团队开发,托管在GitHub上,旨在帮助用户通过简单命令或AI工具快速提取视频字幕,并支持进一...
WaterCrawl 是一个强大的开源网页爬虫工具,旨在帮助用户从网页中提取数据并将其转化为适合大语言模型(LLM)处理的数据格式。它基于 Python 开发,结合 Django、Scrapy 和 Celery 技术,支持高效的网页爬取和数...
OneFileLLM 是一个开源命令行工具,旨在将多种数据源整合成单一文本文件,方便输入大语言模型(LLM)。它支持处理 GitHub 仓库、ArXiv 论文、YouTube 视频转录、网页内容、Sci-Hub 论文和本地文件,自动生成结构...
Chatlog 是一个开源工具,专注于从微信本地数据库提取和查询聊天记录。它支持微信 3.x 和 4.0 版本,覆盖 Windows 和 macOS 系统。用户可以通过命令行、终端界面或 HTTP API 操作,查看聊天记录、联系人、群聊和...
Versatile OCR Program 是一个开源的光学字符识别(OCR)工具,专门为处理复杂的学术和教育文档设计。它能从PDF、图像等文件中提取文本、表格、数学公式、图表和示意图,并生成适合机器学习训练的结构化数据。支...
DevDocs 是一个完全免费的开源工具,由 CyberAGI 团队开发,托管在 GitHub 上。它专为程序员和软件开发者设计,能从技术文档的网址开始,自动爬取相关页面并整理成简洁的 Markdown 或 JSON 文件。它内置 MCP ...
它能自动分析PDF文档的布局,识别页面中的文字、标题、图片、表格、公式等元素,并判断它们的正确顺序。工具支持OCR功能,可以把扫描PDF转为可搜索文本。它基于Docker运行,提供两种模型:视觉模型(Vision Grid ...
serverless-markdown-convertor 是一个免费的开源工具,基于 Cloudflare Worker 和 Workers AI 开发,能将多种文件转换为 Markdown 格式。它支持 PDF、图片、Office 文档...
GPT-Crawler 是由 BuilderIO 团队开发的一个开源工具,托管在 GitHub 上。它通过输入一个或多个网站 URL,爬取页面内容,生成结构化的知识文件(output.json),用于创建自定义 GPT 或 AI 助手。用户...
pure.md 是一个为 AI 代理和开发者设计的工具,主打快速将网页内容或文件转为 Markdown 格式。它通过代理服务绕过反爬虫限制,提取网页核心数据,并输出简洁的 Markdown 文件。无论是动态网页、PDF 文件还是社交...
Cloudsquid 是一家 2023 年成立于德国柏林的公司,专注于用人工智能简化文件处理。它的核心产品是一个在线数据提取平台,用户只需上传 PDF、图片、音频、视频等文件,简单说明需要提取的数据,比如“找出姓名和金...
PDF Craft 是一个开源工具,专为扫描书籍的PDF设计,能将其转换为Markdown格式。它由 oomol-lab 开发,托管在 GitHub 上,适合喜欢整理电子书的用户。工具通过本地AI模型运行,无需联网,既保护隐私又方便操作。....
Supametas.AI 是一个数据处理平台,专门把网页、文档、音视频等杂乱信息整理成AI能用的结构化数据。它支持从多个来源收集数据,包括网页链接、API、本地文件等,然后输出为 JSON 或 Markdown 格式。平台无需编程...
回顶部