ウェブページのデータを効率的に抽出するソリューション
複雑なウェブページからLLMに適した学習データを抽出するために、WaterCrawlは完全なツールチェーンと操作方法を提供する:
- 定義済みのクロール・ルールを使用するpageOptionsパラメータにexclude_tagsを設定することで、無関係なコンテンツ(スクリプトやスタイルなど)をフィルタリングし、include_tagsを使ってターゲットタグ(h1/pなど)を正確に取得する。
- インテリジェントなコンテンツ抽出機能ヘッダーやフッターのような邪魔な要素を取り除き、ページのメインコンテンツを自動的に識別して保持するために、only_main_content=trueパラメータを有効にします。
- マルチフォーマット出力対応結果は、LLMに適したJSONまたはMarkdown形式に直接変換でき、文書の構造化された性質を維持できる。
実践的なステップ
- ターゲットURLと抽出ルールを含むJSONリクエストをAPI経由で送信する。
- システムは自動的にクロール作業とコンテンツのクリーニングを実行します。
- 処理された構造化データファイルをダウンロードする場合に選択します。
この答えは記事から得たものである。WaterCrawl:ウェブコンテンツを大規模モデルで使用可能なデータに変換について