Analyse der wichtigsten Konfigurationsparameter
Die YAML-Konfigurationsdatei von Crawl4LLM enthält mehrere wichtige Parameter, die sich direkt auf die Crawling-Ergebnisse auswirken:
Erforderliche Kernparameter
- cw22_wurzel_pfadClueWeb22 Datensatz Speicherpfad (muss SSD verwenden)
- modell_pfadfastText-Klassifikatormodell: Speicherort der Datei
- output_dirAusgabeverzeichnis (es sollte genügend Platz reserviert werden)
Parameter für die Leistungsoptimierung
- num_workersAnzahl der Threads (empfohlene Einstellung ist die Anzahl der CPU-Kerne)
- max_num_docsMaximale Anzahl der zu verarbeitenden Dokumente (Standardwert 20 Millionen)
- num_selected_docs_per_iterAnzahl der in jeder Runde ausgewählten Dokumente
Parameter für die Auswahl des Algorithmus
- Auswahl_Methode: Empfohlen dclm_fasttext_score
- rating_methodsMehrere Scoring-Methoden können kombiniert werden.
- Bestellung: Die Abkürzung zeigt an, dass dem Erhalt von Dokumenten mit hoher Punktzahl Priorität eingeräumt wird.
Überwachung der Parameter
- wandb: auf true gesetzt, um die Überwachung des Trainingsprozesses zu aktivieren
Diese Antwort stammt aus dem ArtikelCrawl4LLM: Ein effizientes Web Crawling Tool für LLM Pre-TrainingDie




























