Die folgenden Schritte und Bedingungen sind erforderlich, um GPT-Crawler lokal auszuführen:
Vorbereitung der Umwelt
- Montage Node.js 16+ und npm (verfügbar über
node -vim Gesang antwortennpm -v(Verifizierung) - Git-Tools (zum Klonen von Repositories)
Spezifische Schritte
- Klonprojekt::
git clone https://github.com/BuilderIO/gpt-crawler.git - Installation von Abhängigkeiten: Wechseln Sie in das Projektverzeichnis und führen Sie
npm install - KonfigurationsparameterModifikation
config.tsDatei für Schlüsselkonfigurationen:url: Adresse des beginnenden KriechgangsselectorCSS-Selektor für einen bestimmten InhaltsbereichmaxPagesToCrawlGröße des Kriechvorgangs kontrollieren
- Starten Sie den Crawler: Lauf
npm startDanach wird das Ergebnis im Stammverzeichnis desoutput.jsonMitte
Hinweis: Vergewissern Sie sich, dass Ihr Netzwerk für den ersten Durchlauf frei ist, um den Download der Abhängigkeiten abzuschließen, da das dynamische Web-Crawling zusätzliche Zeit zum Laden der Ressourcen benötigen kann.
Diese Antwort stammt aus dem ArtikelGPT-Crawler: Automatisches Crawlen von Website-Inhalten zur Erzeugung von Wissensdatenbank-DokumentenDie































