GPT-Crawler 是一个由 BuilderIO 团队开发的开源网络爬虫工具,专门用于从网站自动提取内容并生成结构化知识文件(output.json)。其核心功能包括:
- 自动化内容抓取:通过指定 URL 和 CSS 选择器,爬取网页文本内容。
- 动态网页支持:利用无头浏览器技术抓取客户端渲染的动态内容。
- Highly configurable:允许设置最大爬取页面数(maxPagesToCrawl)、文件大小限制(maxFileSize)和排除特定资源类型(如图片/视频)。
- Multi-scene Adaptation:支持本地运行、Docker 容器部署以及 API 调用三种方式。
生成的文件可直接用于创建自定义 GPT 或 AI 助手,例如上传至 OpenAI 平台作为知识库来源。
This answer comes from the articleGPT-Crawler: Automatically Crawling Website Content to Generate Knowledge Base DocumentsThe