O GPT-Crawler é uma ferramenta de rastreamento da Web de código aberto desenvolvida pela equipe do BuilderIO, projetada especificamente para extrair automaticamente o conteúdo de sites e gerar arquivos de conhecimento estruturado (output.json). Seus principais recursos incluem:
- Rastreamento automatizado de conteúdoCSS: rastreia o texto de uma página da Web especificando um URL e um seletor CSS.
- Suporte dinâmico à webCaptura de conteúdo dinâmico renderizado pelo cliente usando a tecnologia de navegador sem cabeça.
- Altamente configurávelNúmero máximo de páginas a serem rastreadas (maxPagesToCrawl): permite definir o número máximo de páginas a serem rastreadas (maxPagesToCrawl), o limite de tamanho de arquivo (maxFileSize) e excluir tipos de recursos específicos (por exemplo, imagens/vídeos).
- Adaptação para várias cenasSuporte a execução local, implantação de contêineres do Docker e chamadas de API.
Os arquivos gerados podem ser usados diretamente para criar GPTs personalizados ou assistentes de IA, por exemplo, carregados na plataforma OpenAI como uma fonte de base de conhecimento.
Essa resposta foi extraída do artigoGPT-Crawler: rastreamento automático do conteúdo do site para gerar documentos da base de conhecimentoO































