在本地运行 GPT-Crawler 需要以下步骤和条件:
环境准备
- 安装 Node.js 16+ 和 npm(可通过
node -v
和npm -v
验证) - Git 工具(用于克隆仓库)
具体操作步骤
- 克隆项目:
git clone https://github.com/BuilderIO/gpt-crawler.git
- 安装依赖:进入项目目录后执行
npm install
- 配置参数:修改
config.ts
文件中的关键配置:url
:起始爬取地址selector
:指定内容区域的 CSS 选择器maxPagesToCrawl
:控制爬取规模
- 启动爬虫:运行
npm start
后,结果将保存在根目录的output.json
中
注意:首次运行时需确保网络畅通以完成依赖下载,动态网页抓取可能需要额外时间加载资源。
本答案来源于文章《GPT-Crawler:自动爬取网站内容生成知识库文件》