zentrales Thema
Die gecrawlten Rohdaten müssen verarbeitet werden, um die Anforderungen für die Modellschulung zu erfüllen.
Optimierungsmethoden
- Optimierung der Textextraktion:Hinzufügen des Parameters -clean_html zum Entfernen von Seitentags bei der Ausführung von fetch_docs.py
- Inhalt der Unterabsätze:Konfigurieren von max_length in YAML zur Vermeidung langer Absätze
- Mehrsprachige Unterstützung:Bewertung von nicht-englischen Inhalten mit dem mehrsprachigen fastText-Modell
- Stichprobenstrategie:Alternativer Einsatz von dclm_fasttext_score und Zufallsmodus zur Erzielung von Datenvielfalt
Überprüfung der Effektivität
Die Qualität der Dokumente wird über access_data.py geprüft, wobei u. a. die Relevanz des Themas, die Kohärenz des Textes und die Informationsdichte geprüft werden. Die Qualitätsdaten sollten gleichzeitig erfüllt sein:
1) fasttext_score ≥ 0,8
2) Länge ∈ [500,2000] Zeichen
Diese Antwort stammt aus dem ArtikelCrawl4LLM: Ein effizientes Web Crawling Tool für LLM Pre-TrainingDie































