GPT-Crawler ist ein Open-Source-Web-Crawler-Tool, das vom BuilderIO-Team entwickelt wurde, um automatisch Inhalte von Websites zu extrahieren und strukturierte Wissensdateien (output.json) zu erzeugen. Seine Kernfunktionen umfassen:
- Automatisiertes Crawling von InhaltenCrawlen: Durchsucht den Text einer Webseite, indem es eine URL und einen CSS-Selektor angibt.
- Dynamische Web-UnterstützungErfassen dynamischer Inhalte, die vom Client mithilfe der Headless-Browser-Technologie gerendert werden.
- Hochgradig konfigurierbarErmöglicht die Einstellung der maximalen Anzahl der zu durchsuchenden Seiten (maxPagesToCrawl), der Dateigrößenbegrenzung (maxFileSize) und den Ausschluss bestimmter Ressourcentypen (z. B. Bilder/Videos).
- Mehrszenen-AdaptionEs unterstützt die lokale Ausführung, die Bereitstellung von Docker-Containern und API-Aufrufe.
Die generierten Dateien können direkt zur Erstellung eigener GPTs oder KI-Assistenten verwendet werden, z. B. durch Hochladen auf die OpenAI-Plattform als Quelle für die Wissensbasis.
Diese Antwort stammt aus dem ArtikelGPT-Crawler: Automatisches Crawlen von Website-Inhalten zur Erzeugung von Wissensdatenbank-DokumentenDie































