Detalhes do processo de operação
Crawl4LLM的使用主要分为三个关键步骤:
- 配置爬取任务::
- 在configs目录创建YAML配置文件
- 设置关键参数如数据集路径、线程数、最大文档数等
- 推荐选择
dclm_fasttext_score
作为selection_method
- Executando o rastreador: Implementação
python crawl.py crawl --config configs/my_config.yaml
- extração de dados::
- fazer uso de
fetch_docs.py
将文档ID转换为文本 - aceitável
access_data.py
检查特定文档内容
- fazer uso de
habilidade prática
- 启用wandb日志记录便于分析爬取过程
- 16核CPU建议设置
num_workers:16
- 处理亿级数据时建议预留数百GB磁盘空间
- SSD存储能显著提升大规模数据集处理速度
Essa resposta foi extraída do artigoCrawl4LLM: uma ferramenta eficiente de rastreamento da Web para pré-treinamento de LLMO