通过调整以下核心参数可显著提升 GPT-Crawler 的效能与产出质量:
效率优化参数
- maxPagesToCrawl:限制爬取范围(建议初始设置为 20-50)
- resourceExclusions:过滤非文本资源(如
["image/*", "video/*"]
) - waitForSelectorTimeout:动态页面加载等待时间(默认 3000ms)
内容质量控制
- selector:精确指定内容容器(如
.article-body
避免抓取导航栏) - matchPattern:使用通配符(
**
)控制爬取深度 - maxFileSize/maxTokens:防止生成超出平台限制的文件
advanced skill
- 通过 API 模式运行时,利用
parallelism
参数提升并发能力 - 在 Docker 部署时挂载 Volume 持久化数据(
-v $(pwd)/data:/app/data
) - 对多语言网站,添加
lang
标识符辅助后续 NLP 处理
经验表明:配置 selector
的精度对最终产出质量影响最大,建议先用浏览器开发者工具测试选择器有效性。
This answer comes from the articleGPT-Crawler: Automatically Crawling Website Content to Generate Knowledge Base DocumentsThe