SiteMCP提供了多个实用参数来优化抓取过程:
- 并发控制:
--concurrency参数(如--concurrency 10)可提高同时抓取的页面数 - 路径匹配:
-m/--match参数支持通配符匹配特定URL路径(如-m "/blog/**"只抓取博客部分) - 内容选择器:
--content-selector通过CSS选择器精准抓取特定区域(如--content-selector ".content") - 缓存管理:
--cache-dir自定义缓存路径,--no-cache禁用缓存
这些参数可以组合使用,例如:npx sitemcp https://example.com --concurrency 5 -m "/docs/**" --content-selector "#main"
这条命令会:
- 以5个并发抓取文档部分
- 只提取#main元素内的内容
- 使用默认缓存设置
本答案来源于文章《SiteMCP:抓取网站内容并转为MCP服务》































