Crawl4LLM ist vollständig auf der GitHub-Plattform unter dem Apache 2.0-Protokoll als Open-Source verfügbar und wurde entwickelt, um die Reproduzierbarkeit der Forschung und die einfache Weiterentwicklung zu gewährleisten.
Zu den wichtigsten Ressourcen des Projekts gehören:
- Vollständiger Quellcode der Python-Implementierung, kompatibel mit Python 3.10+ Umgebungen
- Requirements.txt listet alle Abhängigkeiten auf und unterstützt die Pip-Installation mit einem Mausklick.
- In der YAML-Beispielkonfigurationsdatei sind die Parameter vollständig aufgeführt, einschließlich:
- cw22_root_path definiert den Pfad zum Datensatz
- selection_method gibt den intelligenten Auswahlalgorithmus an.
- rater_name legt den Bewertertyp fest
Das Projekt wird außerdem durch eine vollständige Toolkette unterstützt:
- crawl.py ist für den eigentlichen Crawling-Prozess zuständig
- fetch_docs.py implementiert die Extraktion von Textinhalten
- access_data.py unterstützt die Anzeige einzelner Dokumente
Dieses sofort einsatzbereite Design senkt die Hürde für die Nutzung drastisch, so dass Entwickler die Umgebung in weniger als 30 Minuten einrichten und ihr erstes Crawling durchführen können.
Diese Antwort stammt aus dem ArtikelCrawl4LLM: Ein effizientes Web Crawling Tool für LLM Pre-TrainingDie