当前位置：首页 » AI答疑

Crawl4LLM是优化大模型预训练网页数据爬取效率的开源工具

2025-09-05

1.5 K

Crawl4LLM是由清华大学和卡内基梅隆大学联合开发的专业开源项目，专注于提升大语言模型（LLM）预训练阶段的网页数据获取效率。该工具通过智能数据选择算法，能够精确评估网页对模型训练的价值，实现高质量内容筛选与无效爬取的显著减少。

核心优势体现在：

该项目已在GitHub开源，提供完整的代码实现和YAML配置文档，既满足学术研究需求，也适合工业级应用场景。

快速查询站内AI工具