As etapas e condições a seguir são necessárias para executar o GPT-Crawler localmente:
Preparação ambiental
- montagem Node.js 16+ e npm (disponível via
node -vresponder cantandonpm -v(Verificação) - Ferramentas Git (para clonagem de repositórios)
Etapas específicas
- projeto de clonagem::
git clone https://github.com/BuilderIO/gpt-crawler.git - Instalação de dependênciasVá para o diretório do projeto e execute
npm install - Parâmetros de configuraçãoModificação
config.tspara as principais configurações:urlEndereço de rastreamento inicialselectorSeletor CSS para uma determinada área de conteúdomaxPagesToCrawlControle o tamanho do rastreamento
- Iniciar o rastreador: Executar
npm startDepois disso, o resultado será salvo no diretório raiz dooutput.jsonmédio
Observação: Certifique-se de que sua rede esteja livre na primeira execução para concluir o download da dependência; o rastreamento dinâmico da Web pode levar mais tempo para carregar os recursos.
Essa resposta foi extraída do artigoGPT-Crawler: rastreamento automático do conteúdo do site para gerar documentos da base de conhecimentoO































