环境准备步骤
安装Crawl4LLM需要进行以下系统配置:
- Python要求:确保安装Python 3.10或更高版本
- 虚拟环境创建::
- Linux/Mac.
python -m venv crawl4llm_env && source crawl4llm_env/bin/activate
- Fenster.
python -m venv crawl4llm_env && crawl4llm_envScriptsactivate
- Linux/Mac.
- Erwerb von Quellcode::
git clone https://github.com/cxcscmu/Crawl4LLM.git
- Abhängige Installation: Wechseln Sie in das Projektverzeichnis und führen Sie
pip install -r requirements.txt
- 分类器下载:将DCLM fastText分类器模型文件放入
fasttext_scorers/
Verzeichnis (auf der Festplatte des Computers)
besondere Aufmerksamkeit
- 使用ClueWeb22数据集需提前申请访问权限
- 建议将大规模数据集存储在SSD上以提高IO性能
- 确保网络畅通以下载所有依赖包
Diese Antwort stammt aus dem ArtikelCrawl4LLM: Ein effizientes Web Crawling Tool für LLM Pre-TrainingDie