海外からのアクセス：www.kdjingpai.com

Ctrl + D このサイトをブックマークする

現在の場所図頭 " AIアンサー

Crawl4LLMは、完全なオープンソース実装と設定ドキュメントを提供します。

2025-09-05

1.5 K

直接リンクモバイルビュー

Crawl4LLMは、Apache 2.0プロトコルの下、GitHubプラットフォーム上で完全にオープンソース化されており、研究の再現性と二次開発の容易さを保証するように設計されている。

プロジェクトに含まれる主なリソースは以下の通り：

Python 3.10以上の環境と互換性のある、フル機能のPython実装ソースコード
Requirements.txtには依存関係がすべて記載されており、pipによるワンクリック・インストールをサポートしています。
サンプルのYAMLコンフィギュレーションファイルは、以下のパラメータをすべて示している：
- cw22_root_path はデータセットのパスを定義する。
- selection_methodはインテリジェント選択アルゴリズムを指定する。
- rater_nameは評価者のタイプを設定する

また、このプロジェクトは完全なツールチェーンによって支えられている：

crawl.pyはクローリング処理の中核を担っています。
fetch_docs.py はテキストコンテンツの抽出を実装します。
access_data.pyは単一ドキュメントの閲覧をサポートします。

このすぐに使える設計により、開発者は30分もかからずに環境を整え、最初のクロールを行うことができる。

この答えは記事から得たものである。Crawl4LLM：LLM事前学習のための効率的なウェブクローリングツールについて

無断転載を禁じます：AI生産性ツール " Crawl4LLMは、完全なオープンソース実装と設定ドキュメントを提供します。

おすすめ