Crawl4LLMをウェブクローリングとデータ抽出に使用するには？

2025-09-05

1.6 K

直接リンクモバイルビュー

作業工程詳細

Crawl4LLMの使用は、3つの重要なステップに分けられる：

クロールタスクの設定::
- configsディレクトリにYAMLコンフィギュレーション・ファイルを作成する。
- データセットのパス、スレッド数、最大ドキュメント数などの主要パラメータを設定する。
- 推奨される選択肢dclm_fasttext_scoreas selection_method
クローラーの実行実施python crawl.py crawl --config configs/my_config.yaml
データ抽出::
- 利用するfetch_docs.py文書IDをテキストに変換する
- 可access_data.py特定の文書の内容をチェックする