O WaterCrawl fornece uma solução de orquestração Docker Compose pronta para uso que encapsula 12 componentes (PostgreSQL, Redis, MinIO, etc.) que, de outra forma, precisariam ser configurados manualmente em serviços padronizados. A solução foi projetada com uma arquitetura de microsserviços, com contêineres se comunicando por meio de uma rede de sobreposição, e oferece suporte ao dimensionamento horizontal dos nós de trabalho do Scrapy para lidar com picos de tráfego.
O processo de implantação leva apenas três etapas: clonar o repositório → configurar o .env → iniciar o arquivo de composição, economizando 85% de tempo de inicialização em comparação com os métodos de implantação tradicionais. As recomendações de otimização para o ambiente de produção incluem: definir um limite de memória para os trabalhadores do Celery (recomenda-se 2 GB/instância), ativar o arquivamento de log WAL para o PostgreSQL e configurar a política de armazenamento de código de exclusão do MinIO.
O caso prático de uma empresa de comércio eletrônico internacional mostra que o tempo de implementação de seu cluster de rastreamento foi reduzido de 3 dias-homem para 2 horas depois de usar essa solução, e o pico de rendimento de rastreamento durante a Black Friday atingiu 120.000 páginas/minuto depois de usar o Kubernetes Operator para realizar ainda mais a expansão e a contração automáticas. A interface de verificação de integridade integrada do sistema e a função de exportação de indicadores do Prometheus oferecem suporte completo de monitoramento para operação e manutenção em contêineres.
Essa resposta foi extraída do artigoWaterCrawl: transformando o conteúdo da Web em dados utilizáveis para grandes modelosO































