Schritte zur Vorbereitung der Umwelt
Die folgende Systemkonfiguration ist für die Installation von Crawl4LLM erforderlich:
- Python-AnforderungenStellen Sie sicher, dass Python 3.10 oder höher installiert ist.
- Erstellung einer virtuellen Umgebung::
- Linux/Mac.
python -m venv crawl4llm_env && source crawl4llm_env/bin/activate - Fenster.
python -m venv crawl4llm_env && crawl4llm_envScriptsactivate
- Linux/Mac.
- Erwerb von Quellcode::
git clone https://github.com/cxcscmu/Crawl4LLM.git - Abhängige Installation: Wechseln Sie in das Projektverzeichnis und führen Sie
pip install -r requirements.txt - Klassifikator Download: Legen Sie die DCLM fastText-Klassifikator-Modelldatei in die Datei
fasttext_scorers/Verzeichnis (auf der Festplatte des Computers)
besondere Aufmerksamkeit
- Der Zugang zu ClueWeb22-Datensätzen muss im Voraus beantragt werden
- Es wird empfohlen, große Datenmengen auf SSDs zu speichern, um die IO-Leistung zu verbessern.
- Sicherstellen, dass das Netz frei ist, um alle abhängigen Pakete herunterzuladen
Diese Antwort stammt aus dem ArtikelCrawl4LLM: Ein effizientes Web Crawling Tool für LLM Pre-TrainingDie































