海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

Crawl4LLM是优化大模型预训练网页数据爬取效率的开源工具

2025-09-05 1.4 K

Crawl4LLM是由清华大学和卡内基梅隆大学联合开发的专业开源项目,专注于提升大语言模型(LLM)预训练阶段的网页数据获取效率。该工具通过智能数据选择算法,能够精确评估网页对模型训练的价值,实现高质量内容筛选与无效爬取的显著减少。

核心优势体现在:

  • 工作效率提升:实验数据表明可将传统需要爬取100个网页的工作量缩减至21个
  • 算法创新性:采用DCLM fastText分类器进行内容质量评估,支持基于length和fasttext_score的双重评分机制
  • 工程实现优化:多线程爬取引擎设计与SSD存储适配,可处理ClueWeb22等亿级规模数据集

该项目已在GitHub开源,提供完整的代码实现和YAML配置文档,既满足学术研究需求,也适合工业级应用场景。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文