Crawl4LLM以Apache 2.0协议在GitHub平台完整开源,其工程化程度保障了研究可复现性和二次开发便利性。
项目包含的关键资源有:
- 全功能Python实现源码,兼容Python 3.10+环境
- requirements.txt列明所有依赖项,支持pip一键安装
- 示例YAML配置文件完整展示各项参数,包括:
- cw22_root_path定义数据集路径
- selection_method指定智能选择算法
- rater_name设置评分器类型
项目还提供完整的工具链支持:
- crawl.py负责核心爬取流程
- fetch_docs.py实现文本内容提取
- access_data.py支持单文档检视
这种开箱即用的设计大幅降低了使用门槛,开发者可在30分钟内完成环境搭建和首次爬取。
本答案来源于文章《Crawl4LLM:为LLM预训练提供的高效网页爬取工具》