Details zum Betriebsablauf
Die Verwendung von Crawl4LLM gliedert sich in drei wesentliche Schritte:
- Konfigurieren Sie die Crawl-Aufgabe::
- Erstellen Sie eine YAML-Konfigurationsdatei im Verzeichnis configs
- Legen Sie die wichtigsten Parameter fest, z. B. den Pfad zum Datensatz, die Anzahl der Threads, die maximale Anzahl der Dokumente usw.
- Empfohlene Wahlmöglichkeiten
dclm_fasttext_scoreals auswahl_method
- Ausführen des Crawlers: Umsetzung
python crawl.py crawl --config configs/my_config.yaml - Datenextraktion::
- ausnutzen
fetch_docs.pyDokument-IDs in Text umwandeln - passabel
access_data.pyPrüfen des Inhalts eines bestimmten Dokuments
- ausnutzen
praktisches Können
- Aktivieren der wandb-Protokollierung zur einfachen Analyse des Crawling-Prozesses
- Empfohlene Einstellungen für 16-Kern-CPUs
num_workers:16 - Es wird empfohlen, bei der Verarbeitung von Milliarden von Daten Hunderte von Gigabyte Speicherplatz zu reservieren.
- SSD-Speicher kann die Verarbeitung umfangreicher Datensätze erheblich beschleunigen
Diese Antwort stammt aus dem ArtikelCrawl4LLM: Ein effizientes Web Crawling Tool für LLM Pre-TrainingDie































