Hintergrund des Themas
Herkömmliche Crawler crawlen eine große Anzahl von Webseiten geringer Qualität, was die LLM-Trainingsergebnisse beeinträchtigt. Crawl4LLM ermöglicht die Filterung von Inhalten durch einen Scoring-Mechanismus.
Verschreibung
- Duales Punktesystem:Konfigurieren Sie rating_methods in config so, dass sowohl length als auch fasttext_score doppelt gefiltert werden
- Modellauswahl:Laden Sie das empfohlene openhermes-Klassifikatormodell (bigram_200k_train.bin) herunter, um die besten Bewertungsergebnisse zu erzielen!
- Einstellungen sortieren:Wenn Sie die Reihenfolge auf absteigend setzen, werden Seiten mit hohen Bewertungen zuerst gecrawlt!
- Anpassung des Schwellenwerts:Weitere Optimierung der Screening-Kriterien durch Modifikation der Scoring-Gewichtsparameter in der YAML-Datei
Effektivität der Umsetzung
Tests haben gezeigt, dass mit dieser Methode das notwendige Crawling um 79% reduziert werden kann, ohne dass die Modellschulung beeinträchtigt wird. Für spezielle Domänenanforderungen kann das fastText-Modell auch individuell trainiert werden.
Diese Antwort stammt aus dem ArtikelCrawl4LLM: Ein effizientes Web Crawling Tool für LLM Pre-TrainingDie































