Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " AI-Antworten

Wie kann man die Anwendbarkeit von Crawling-Ergebnissen beim LLM-Pre-Training verbessern?

2025-09-05 1.6 K
Link direktMobile Ansicht
qrcode

zentrales Thema

Die gecrawlten Rohdaten müssen verarbeitet werden, um die Anforderungen für die Modellschulung zu erfüllen.

Optimierungsmethoden

  • Optimierung der Textextraktion:Hinzufügen des Parameters -clean_html zum Entfernen von Seitentags bei der Ausführung von fetch_docs.py
  • Inhalt der Unterabsätze:Konfigurieren von max_length in YAML zur Vermeidung langer Absätze
  • Mehrsprachige Unterstützung:Bewertung von nicht-englischen Inhalten mit dem mehrsprachigen fastText-Modell
  • Stichprobenstrategie:Alternativer Einsatz von dclm_fasttext_score und Zufallsmodus zur Erzielung von Datenvielfalt

Überprüfung der Effektivität

Die Qualität der Dokumente wird über access_data.py geprüft, wobei u. a. die Relevanz des Themas, die Kohärenz des Textes und die Informationsdichte geprüft werden. Die Qualitätsdaten sollten gleichzeitig erfüllt sein:
1) fasttext_score ≥ 0,8
2) Länge ∈ [500,2000] Zeichen

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

zurück zum Anfang