AI专业工具

 提交网站

wechat-article-to-markdown：自动抓取微信公众号文章并转换为Markdown格式的工具
wechat-article-to-markdown 是由开发者 jackwener 开源的一款高效、专业的网页信息抓取与格式转换工具。该项目专注于解决在处理微信公众号文章、进行知识库归档或二次排版时的痛点，用户仅需通过一行简单的命令行指令...
1.3 K直达0已赞
0已收藏
Extralt：结构化提取全网电商商品数据与市场情报的AI分析平台
Extralt是一家专注于提供电商市场情报和商品数据结构化提取的智能平台。由于传统的网页抓取工具容易因网站结构变动而失效，而基于大语言模型的纯AI提取又存在速度慢、成本高的问题，Extralt提供了一种创新的解决方案。平台利用AI在构建阶段...
873直达0已赞
0已收藏
OneAIFW：保护大模型数据隐私的轻量级开源防火墙
OneAIFW（aifw）是由Funstory.ai开发的一款旨在解决大语言模型（LLM）数据隐私问题的开源工具。在当前的大模型应用中，用户经常需要将包含个人身份信息（PII）或商业机密的文本发送给云端模型（如ChatGPT、Claude等...
2.1 K直达0已赞
0已收藏
AutoForm：从任意文档中提取数据并自动填充网页表单的AI工具
AutoForm是一个使用人工智能技术，旨在将用户从重复的数据复制和粘贴工作中解放出来的工具。它的核心功能是作为一个“AI数据录入代理”，能够读取和理解多种格式的非结构化文件，例如PDF文档、电子表格、邮件、网页乃至视频等。 AutoFo...
2.9 K直达0已赞
0已收藏
OCRmyPDF：将扫描PDF转为可搜索文本的开源工具
OCRmyPDF 是一个开源的命令行工具，专门用于为扫描的PDF文件添加光学字符识别（OCR）文本层，使其变为可搜索、可复制的文档。它基于Python开发，使用Tesseract OCR引擎，能准确识别图像中的文字，并将其嵌入PDF中，保持...
1.2 W直达0已赞
0已收藏
Docstrange：从文档和图片提取数据并转换为多种格式的工具
Docstrange 是一个开源的文档处理工具，专注于从多种格式的文档和图片中提取数据，并将其转换为 Markdown、JSON、CSV 或 HTML 等格式。它利用人工智能和先进的 OCR 技术，支持处理 PDF、Word 文档、Exce...
5.6 K直达0已赞
0已收藏
LangExtract：从文本提取结构化数据的开源工具
LangExtract 是 Google 开发的一款开源 Python 库，专注于从非结构化文本中提取结构化数据。它利用大型语言模型（LLM）如 Google Gemini 系列，结合精确的源文本定位和交互式可视化功能，帮助用户快速将复杂文...
5.6 K直达0已赞
0已收藏
Chat4Data：通过自然语言提取网页数据的AI工具
Chat4Data 是一个基于人工智能的 Chrome 浏览器扩展工具，专注于简化网页数据提取。它通过自然语言对话让用户轻松获取网页上的结构化数据，无需编写代码。用户只需用简单的语言描述所需数据，如产品名称、价格或联系方式，Chat4Dat...
2.6 K直达0已赞
0已收藏
ytt-mcp：获取和处理YouTube视频字幕的服务器工具
ytt-mcp是一个开源的MCP（模型上下文协议）服务器工具，专门用于从YouTube视频中获取字幕并进行处理。它由cottongeeks团队开发，托管在GitHub上，旨在帮助用户通过简单命令或AI工具快速提取视频字幕，并支持进一步的内容...
3.3 K直达0已赞
0已收藏
WaterCrawl：将网页内容转化为大模型可用的数据
WaterCrawl 是一个强大的开源网页爬虫工具，旨在帮助用户从网页中提取数据并将其转化为适合大语言模型（LLM）处理的数据格式。它基于 Python 开发，结合 Django、Scrapy 和 Celery 技术，支持高效的网页爬取和数...
3.7 K直达1已赞
0已收藏
Dolphin
Dolphin 是由 ByteDance 开发的一款开源文档图像解析工具，专注于处理复杂的文档图像，如包含文本、表格、公式和图片的扫描件或 PDF 文件。它采用“先分析后解析”的方法，通过两阶段处理实现高效解析：首先分析文档的页面布局，生成...
4.0 K直达0已赞
0已收藏
OneFileLLM：整合多种数据源为单一文本文件
OneFileLLM 是一个开源命令行工具，旨在将多种数据源整合成单一文本文件，方便输入大语言模型（LLM）。它支持处理 GitHub 仓库、ArXiv 论文、YouTube 视频转录、网页内容、Sci-Hub 论文和本地文件，自动生成结构...
3.7 K直达0已赞
0已收藏
Chatlog：提取和查询微信聊天记录的开源工具
Chatlog 是一个开源工具，专注于从微信本地数据库提取和查询聊天记录。它支持微信 3.x 和 4.0 版本，覆盖 Windows 和 macOS 系统。用户可以通过命令行、终端界面或 HTTP API 操作，查看聊天记录、联系人、群聊和...
1.4 W直达0已赞
0已收藏
DevDocs：快速抓取并整理技术文档的MCP服务
DevDocs 是一个完全免费的开源工具，由 CyberAGI 团队开发，托管在 GitHub 上。它专为程序员和软件开发者设计，能从技术文档的网址开始，自动爬取相关页面并整理成简洁的 Markdown 或 JSON 文件。它内置 MCP ...
4.2 K直达0已赞
0已收藏
基于Workers AI免费将多种文件转为Markdown格式
serverless-markdown-convertor 是一个免费的开源工具，基于 Cloudflare Worker 和 Workers AI 开发，能将多种文件转换为 Markdown 格式。它支持 PDF、图片、Office 文档...
3.9 K直达0已赞
0已收藏
GPT-Crawler：自动爬取网站内容生成知识库文件
GPT-Crawler 是由 BuilderIO 团队开发的一个开源工具，托管在 GitHub 上。它通过输入一个或多个网站 URL，爬取页面内容，生成结构化的知识文件（output.json），用于创建自定义 GPT 或 AI 助手。用户...
5.0 K直达0已赞
0已收藏
pure.md：网址前插入“pure.md/”即可提取干净的文本
pure.md 是一个为 AI 代理和开发者设计的工具，主打快速将网页内容或文件转为 Markdown 格式。它通过代理服务绕过反爬虫限制，提取网页核心数据，并输出简洁的 Markdown 文件。无论是动态网页、PDF 文件还是社交媒体内容...
4.1 K直达0已赞
0已收藏
Cloudsquid：上传文档并描述要求智能提取结构化数据
Cloudsquid 是一家 2023 年成立于德国柏林的公司，专注于用人工智能简化文件处理。它的核心产品是一个在线数据提取平台，用户只需上传 PDF、图片、音频、视频等文件，简单说明需要提取的数据，比如“找出姓名和金额”，AI 就会自动完...
3.5 K直达0已赞
0已收藏
PDF Craft：PDF扫描文件转Markdown的开源工具
PDF Craft 是一个开源工具，专为扫描书籍的PDF设计，能将其转换为Markdown格式。它由 oomol-lab 开发，托管在 GitHub 上，适合喜欢整理电子书的用户。工具通过本地AI模型运行，无需联网，既保护隐私又方便操作。它...
5.3 K直达0已赞
0已收藏

AI专业工具

快速查询站内AI工具