在本地运行 GPT-Crawler 需要以下步骤和条件:
Preparação ambiental
- montagem Node.js 16+ 和 npm(可通过
node -v
responder cantandonpm -v
验证) - Git 工具(用于克隆仓库)
Etapas específicas
- projeto de clonagem::
git clone https://github.com/BuilderIO/gpt-crawler.git
- Instalação de dependências:进入项目目录后执行
npm install
- Parâmetros de configuraçãoModificação
config.ts
文件中的关键配置:url
:起始爬取地址selector
:指定内容区域的 CSS 选择器maxPagesToCrawl
:控制爬取规模
- Iniciar o rastreador: Executar
npm start
后,结果将保存在根目录的output.json
médio
注意:首次运行时需确保网络畅通以完成依赖下载,动态网页抓取可能需要额外时间加载资源。
Essa resposta foi extraída do artigoGPT-Crawler: rastreamento automático do conteúdo do site para gerar documentos da base de conhecimentoO