怎样提升Auto-Audio-Book在爬取防爬小说网站时的成功率？

2025-08-28

1.3 K

防反爬策略实施指南

针对有防护机制的小说站点，需采取以下措施：

请求伪装配置::
- 修正crawler/config.py中的HEADERS参数
- 添加随机User-Agent（使用fake_useragent库）
- 设置合理的请求间隔（建议3-5秒）
云函数分流方案::
- そうしれいかんgetZjList.py部署到多地域云函数
- 使用AWS Lambda或腾讯云SCF实现IP轮换
CAPTCHAの取り扱い：对于简单验证码：
1. 安装三方识别库ddddocr
2. あるcrawler/utils.py添加自动识别模块

最终方案：若网站防护过强，建议修改爬取逻辑为浏览器自动化（集成Playwright），参考项目examples/playwright_crawler分岐する。