Histórico da questão
O rastreamento altamente simultâneo é propenso a ficar sem memória, levando ao encerramento do processo.
prescrição
- Inicialização gradual:Inicialmente, defina num_workers=4 e aumente gradualmente até o limite superior da tolerância do sistema.
- Monitoramento de memória:Habilitar o wandb para monitorar o uso da memória
- Controle de lote:Diminua o valor de num_selected_docs_per_iter (recomendado de 2000 a 5000)
- Segregação de recursos:Limitando o uso de memória do contêiner com o Docker
Recomendações de otimização
- Recomenda-se que os computadores com 64 GB de RAM não tenham mais de 32 funcionários.
- Ao encontrar um estouro, primeiro verifique se o modelo fastText está carregado na memória.
- Tente modificar o parâmetro chunksize no drawl.py para reduzir a quantidade de processamento em uma única passagem
Essa resposta foi extraída do artigoCrawl4LLM: uma ferramenta eficiente de rastreamento da Web para pré-treinamento de LLMO