主要構成パラメータの分析
Crawl4LLMのYAML設定ファイルには、クロール結果に直接影響するいくつかの重要なパラメータが含まれている:
コア必須パラメータ
- cw22_root_pathClueWeb22 データセットのストレージパス (SSD を使用する必要があります)
- モデルパスFastText 分類器モデルのファイルの場所
- 出力先結果出力ディレクトリ(十分なスペースを確保すること)
パフォーマンス・チューニング・パラメーター
- 労働者数スレッド数(推奨はCPUコア数)
- max_num_docs最大処理文書数(デフォルト2000万件)
- num_selected_docs_per_iter。各ラウンドで選択されたドキュメントの数
アルゴリズム選択パラメータ
- 選択メソッド推奨 dclm_fasttext_score
- 評価方法複数の採点方法を組み合わせることができる
- オーダー: スコアの高い文書を優先的に入手することを示す。
モニタリング・パラメーター
- ワンドビートレーニングプロセスの監視を有効にするには、trueを設定します。
この答えは記事から得たものである。Crawl4LLM:LLM事前学習のための効率的なウェブクローリングツールについて































