Derzeitige Position:Abb. Anfang " AI-Antworten

Was sind die wichtigen Konfigurationsparameter, die bei der Verwendung von Crawl4LLM beachtet werden müssen?

2025-09-05

1.5 K

Analyse der wichtigsten Konfigurationsparameter

Die YAML-Konfigurationsdatei von Crawl4LLM enthält mehrere wichtige Parameter, die sich direkt auf die Crawling-Ergebnisse auswirken:

num_workersAnzahl der Threads (empfohlene Einstellung ist die Anzahl der CPU-Kerne)
max_num_docsMaximale Anzahl der zu verarbeitenden Dokumente (Standardwert 20 Millionen)
num_selected_docs_per_iterAnzahl der in jeder Runde ausgewählten Dokumente

Auswahl_Methode: Empfohlen dclm_fasttext_score
rating_methodsMehrere Scoring-Methoden können kombiniert werden.
Bestellung: Die Abkürzung zeigt an, dass dem Erhalt von Dokumenten mit hoher Punktzahl Priorität eingeräumt wird.

wandb: auf true gesetzt, um die Überwachung des Trainingsprozesses zu aktivieren