作業工程詳細
Crawl4LLMの使用は、3つの重要なステップに分けられる:
- クロールタスクの設定::
- configsディレクトリにYAMLコンフィギュレーション・ファイルを作成する。
- データセットのパス、スレッド数、最大ドキュメント数などの主要パラメータを設定する。
- 推奨される選択肢
dclm_fasttext_scoreas selection_method
- クローラーの実行実施
python crawl.py crawl --config configs/my_config.yaml - データ抽出::
- 利用する
fetch_docs.py文書IDをテキストに変換する - 可
access_data.py特定の文書の内容をチェックする
- 利用する
実技
- クローリングプロセスを簡単に分析するために、wandbロギングを有効にする。
- 16コアCPUの推奨設定
num_workers:16 - 何十億ものデータを処理する場合は、数百ギガバイトのディスク容量を確保することをお勧めします。
- SSDストレージは大規模データセットの処理を大幅に高速化できる
この答えは記事から得たものである。Crawl4LLM:LLM事前学習のための効率的なウェブクローリングツールについて































