Hintergrund
Für das LLM-Pre-Training ist eine große Menge an hochwertigen Daten erforderlich, und das herkömmliche Web-Crawling leidet unter Datenredundanz und Ineffizienz. Crawl4LLM bietet eine intelligente Lösung für die Filterung hochwertiger Inhalte durch Algorithmen.
Zentrale Betriebsverfahren
- Konfigurieren Sie die intelligente Filterung:Setzen Sie selection_method in der YAML-Datei auf dclm_fasttext_score, um das Pre-Training des Evaluierungsmodells zu ermöglichen
- Passen Sie die Crawling-Parameter an:Steuern Sie die Anzahl der Threads durch num_workers (16 Threads für 16-Core-CPUs werden empfohlen), max_num_docs setzt die Dokumentengrenze.
- Verwenden Sie SSD-Speicher:Verbesserung der E/A-Leistung durch Speicherung großer Datenmengen wie ClueWeb22 auf SSDs
- Aktivieren Sie die W&B-Überwachung:Setzen Sie wandb:true, um den Crawling-Prozess zur späteren Optimierung aufzuzeichnen
caveat
Für die erstmalige Verwendung müssen Sie den fastText Classifier in das angegebene Verzeichnis herunterladen und sicherstellen, dass die Python-Version ≥ 3.10 ist. Es wird empfohlen, ihn in einer virtuellen Umgebung auszuführen, um Abhängigkeitskonflikte zu vermeiden.
Diese Antwort stammt aus dem ArtikelCrawl4LLM: Ein effizientes Web Crawling Tool für LLM Pre-TrainingDie































