このツールは、プロ級のクローリングパラメータ設定により、正確なコンテンツ抽出を可能にします。config.tsの設定ファイルでは、開発者は、開始URL(url)、リンクマッチングパターン(match)、コンテンツ選択CSSセレクタ(selector)、およびその他の主要なパラメータを定義することができ、これらのルールは、最終的に生成されたナレッジベースの品質に直接影響します。
- URLマッチングでは、ワイルドカードをサポートする構文(例:https://example.com/**)を使用し、クロール範囲をインテリジェントに制御する。
- CSSセレクタ・メカニズム(例えば.docs-builder-container)は、対象となるコンテンツ領域をピンポイントで特定し、無関係な要素の採取を避けることができる。
- ResourceExclusionsは、画像や動画などテキスト以外のリソースをフィルタリングし、処理効率を向上させることができます。
これらの設定オプションにより、技術文書、ブログ記事、その他のシナリオをキャプチャする際に、ヘッダー、フッター、広告などの邪魔なコンテンツを自動的にスキップし、核となるテキスト情報を直接キャプチャすることが可能になります。
この答えは記事から得たものである。GPT-Crawler: ウェブサイトコンテンツを自動的にクロールして知識ベースドキュメントを生成について































