WaterCrawlは、様々なシナリオのデータ処理ニーズを満たすために、様々な有用なデータ出力形式オプションを提供します:
- JSONフォーマットフォローアップとプログラムの利用を促進するために高度に構成されている。
- マークダウン形式文書処理のために基本的なテキスト構造と書式を保持する。
- MinIOストレージ大規模ファイルの効率的な保存と管理をサポート
- API直接出力RESTfulインターフェイスでリアルタイムのクロール結果を得ることができる。
これらのフォーマットは、大規模な言語モデルのデータ処理における標準化のニーズと、開発者の統合や利用のしやすさを考慮して設計されています。ユーザーは、設定ファイルまたはAPIリクエストパラメータで、希望の出力フォーマットを指定できます。
この答えは記事から得たものである。WaterCrawl:ウェブコンテンツを大規模モデルで使用可能なデータに変換について































