重要課題
クロールされた生データは、モデルのトレーニング要件を満たすために処理される必要がある。
最適化手法
- テキスト抽出の最適化:fetch_docs.py 実行時にページタグを削除するための -clean_html パラメータを追加しました。
- 内容の小項目:長い段落を避けるためにYAMLでmax_lengthを設定する
- 多言語サポート:多言語fastTextモデルを用いた非英語コンテンツの評価
- サンプリング戦略:データの多様性を得るためのdclm_fasttext_scoreとランダムパターンの交互使用
効果検証
ドキュメントの品質は、access_data.pyを通してサンプルされ、次のようなチェックが提案されています:主題の関連性、テキストの一貫性、情報密度、その他のメトリクス。品質データも同時に満足させる必要があります:
1) fasttext_score ≥ 0.8
2) 長さ([500,2000]文字
この答えは記事から得たものである。Crawl4LLM:LLM事前学習のための効率的なウェブクローリングツールについて































