Crawl4LLM是由清华大学和卡内基梅隆大学联合开发的专业开源项目,专注于提升大语言模型(LLM)预训练阶段的网页数据获取效率。该工具通过智能数据选择算法,能够精确评估网页对模型训练的价值,实现高质量内容筛选与无效爬取的显著减少。
核心优势体现在:
- 工作效率提升:实验数据表明可将传统需要爬取100个网页的工作量缩减至21个
- 算法创新性:采用DCLM fastText分类器进行内容质量评估,支持基于length和fasttext_score的双重评分机制
- 工程实现优化:多线程爬取引擎设计与SSD存储适配,可处理ClueWeb22等亿级规模数据集
该项目已在GitHub开源,提供完整的代码实现和YAML配置文档,既满足学术研究需求,也适合工业级应用场景。
本答案来源于文章《Crawl4LLM:为LLM预训练提供的高效网页爬取工具》