海外からのアクセス：www.kdjingpai.com

Ctrl + D このサイトをブックマークする

現在の場所図頭 " AIアンサー

什么是Crawl4LLM？它的核心功能是什么？

2025-09-05

1.4 K

Crawl4LLM概述

Crawl4LLM是由清华大学和卡内基梅隆大学联合开发的开源项目，专注于为大型语言模型(LLM)预训练优化网页爬取效率。其核心价值在于通过智能数据选择算法，大幅提升高质量训练数据的获取效率。

コア機能

インテリジェントなデータ選択：通过fastText分类器评估网页对模型训练的价值，能将需爬取网页数量从100个缩减到21个
複数のクローリングモード：支持智能选择和随机爬取等多种方式
効率的なクローリング・エンジン：利用多线程技术显著提升爬取速度
大規模データ処理：兼容ClueWeb22等亿级数据集
可定制配置：通过YAML文件调整爬取参数

该项目已在GitHub开源，提供了完整的代码和文档支持，受到学术界和工业界的广泛关注。

この答えは記事から得たものである。Crawl4LLM：LLM事前学習のための効率的なウェブクローリングツールについて

関連記事

無断転載を禁じます：AI生産性ツール " 什么是Crawl4LLM？它的核心功能是什么？

おすすめ

日本語