問題の背景
Crawl4LLMは、スコアリングメカニズムによってコンテンツのフィルタリングを可能にします。
処方
- 二重採点システム:lengthとfasttext_scoreのダブルフィルタリングを使用するように、コンフィグでating_methodsを設定する。
- モデル選択:最適な評価結果を得るために、推奨のopenhermes分類器モデル(bigram_200k_train.bin)をダウンロードしてください!
- ソート設定:descに設定すると、評価の高いページが最初にクロールされる!
- しきい値調整:YAMLファイルのスコアリングウェイトパラメータを修正することによるスクリーニング基準のさらなる最適化
実施効果
テストによると、この方法により、モデル学習の劣化を維持したまま、必要なクロールを79%削減できることが示されている。特殊なドメイン要件に対しては、fastTextモデルをカスタムでトレーニングすることもできます。
この答えは記事から得たものである。Crawl4LLM:LLM事前学習のための効率的なウェブクローリングツールについて































