Hintergrund des Themas
高并发爬取时容易出现内存不足导致进程终止。
Verschreibung
- 渐进式启动:初始设置num_workers=4,逐步增加到系统承受上限
- 内存监控:启用wandb监控内存使用情况
- 批次控制:降低num_selected_docs_per_iter值(建议2000-5000)
- 资源隔离:使用Docker限制容器内存使用量
Optimierungsempfehlungen
- 64GB内存机器建议worker数不超过32
- 遇到溢出时先检查fastText模型是否加载到内存
- 可尝试修改crawl.py中的chunksize参数减少单次处理量
Diese Antwort stammt aus dem ArtikelCrawl4LLM: Ein effizientes Web Crawling Tool für LLM Pre-TrainingDie