SiteMCPのマルチレベル・コンテンツ選択が正確なデータ・クロールを可能にする

2025-08-25

1.4 K

きめ細かなコンテンツ抽出の技術的実装

SiteMCPは、トリプルフィルタリングメカニズムにより、最も関連性の高いページコンテンツを確実にキャプチャします：

URLパスマッチングマイクロマッチでサポートされているワイルドカード構文を使用します。/blog/**)、捕獲範囲を正確に制限することができる。
DOM要素の選択スルー--content-selectorパラメータは、ピクセルレベルのコンテンツ位置決め用のCSSセレクタを指定します。
インテリジェントなコンテンツ抽出Readability アルゴリズムはデフォルトで有効になっており、テキストエリアを自動的に識別し、ナビゲーションバーなどの邪魔な要素を除外します。

技術文書のシナリオ・テストによるとnpx sitemcp https://vite.dev -m "/guide/**" --content-selector ".article-content"このようにきめ細かく制御することで、AIが取得するデータの質は通常のクローラーをはるかに凌駕する。