SiteMCP提供了多个实用参数来优化抓取过程:
- 并发控制::
--concurrency
parâmetros (por exemplo--concurrency 10
)可提高同时抓取的页面数 - 路径匹配::
-m/--match
参数支持通配符匹配特定URL路径(如-m "/blog/**"
只抓取博客部分) - 内容选择器::
--content-selector
通过CSS选择器精准抓取特定区域(如--content-selector ".content"
) - 缓存管理::
--cache-dir
自定义缓存路径,--no-cache
禁用缓存
这些参数可以组合使用,例如:npx sitemcp https://example.com --concurrency 5 -m "/docs/**" --content-selector "#main"
这条命令会:
- 以5个并发抓取文档部分
- 只提取#main元素内的内容
- 使用默认缓存设置
Essa resposta foi extraída do artigoSiteMCP: rastrear o conteúdo do site e transformá-lo em serviços MCPO