GPT-Crawlerは、BuilderIOチームによって開発されたオープンソースのWebクローラーツールで、特にWebサイトからコンテンツを自動的に抽出し、構造化ナレッジファイル(output.json)を生成するように設計されています。主な機能は以下の通りです:
- 自動コンテンツ・クロールURLとCSSセレクタを指定して、ウェブページのテキストをクローリングする。
- ダイナミック・ウェブ・サポートヘッドレス・ブラウザ・テクノロジーを使用して、クライアントがレンダリングしたダイナミック・コンテンツをキャプチャします。
- 高度なコンフィギュレーションが可能: クロールするページ数の上限(maxPagesToCrawl)、ファイルサイズの上限(maxFileSize)、特定のリソースタイプ(画像/動画など)の除外を設定できます。
- マルチシーン・アダプテーションローカルでの実行、Dockerコンテナのデプロイ、APIコールをサポートしています。
生成されたファイルは、カスタムGPTやAIアシスタントを作成するために直接使用することができ、例えば知識ベースソースとしてOpenAIプラットフォームにアップロードすることができます。
この答えは記事から得たものである。GPT-Crawler: ウェブサイトコンテンツを自動的にクロールして知識ベースドキュメントを生成について































