Guia de Implementação da Estratégia Anti-Crawl
As seguintes medidas precisam ser tomadas para locais fictícios com mecanismos de proteção:
- Solicitação de uma configuração falsa::
- modificações
crawler/config.pyO parâmetro HEADERS no - Adicione um User-Agent aleatório (usando a biblioteca fake_useragent)
- Defina intervalos de solicitação razoáveis (recomenda-se de 3 a 5 segundos)
- modificações
- Programa de triagem de funções de nuvem::
- comandante-em-chefe (militar)
getZjList.pyImplementação de funções de nuvem em várias geografias - Rotação de IP com AWS Lambda ou Tencent Cloud SCF
- comandante-em-chefe (militar)
- Manuseio do CAPTCHAPara captcha simples:
- Instalação da biblioteca de reconhecimento de três vias ddddocr
- existir
crawler/utils.pyAdição de um módulo de reconhecimento automático
Solução final: se o site estiver superprotegido, é recomendável modificar a lógica de rastreamento para automação do navegador (integrando o Playwright), consulte o projetoexamples/playwright_crawlerRamificação.
Essa resposta foi extraída do artigoUma ferramenta para rastrear automaticamente romances e gerar audiolivros com vários caracteresO































