动态内容抓取方案
针对客户端渲染的动态网页:
- 技术原理:GPT-Crawler内置无头浏览器(如Puppeteer),可完整执行JavaScript并获取最终渲染内容
- 具体操作:
- 在config.ts中确保未禁用
useHeadlessBrowser
参数 - 设置合理的
waitForSelectorTimeout
等待动态加载完成(默认30秒) - 使用Chrome调试模式验证选择器准确性
- 在config.ts中确保未禁用
- 优化建议:
- 对复杂SPA应用增加
waitForNetworkIdle
配置 - 通过
device
参数模拟移动端渲染 - 添加
--no-sandbox
参数解决Docker环境权限问题
- 对复杂SPA应用增加
- 验证方法:检查output.json中是否包含应有内容,或使用
debug:true
参数输出日志
本答案来源于文章《GPT-Crawler:自动爬取网站内容生成知识库文件》