WaterCrawlは、標準化されたサービスに手動で設定する必要がある12のコンポーネント(PostgreSQL、Redis、MinIOなど)をカプセル化する、すぐに使えるDocker Composeオーケストレーションソリューションを提供します。このソリューションはマイクロサービスアーキテクチャで設計されており、コンテナはオーバーレイネットワーク上で通信し、トラフィックの急増に対処するためにScrapyワーカーノードの水平スケーリングをサポートしています。
デプロイプロセスは、リポジトリのクローン→.envの設定→composeファイルの起動の3ステップのみで、従来のデプロイ方法と比較して85%の初期化時間を節約できます。本番環境への最適化の推奨事項としては、Celeryワーカーのメモリ制限の設定(2GB/インスタンスを推奨)、PostgreSQLのWALログアーカイブの有効化、MinIOの削除コードストレージポリシーの設定などがある。
ある越境EC企業の事例では、このソリューションの利用後、クローラークラスターのデプロイ時間が3人日から2時間に短縮され、さらにKubernetes Operatorを利用して自動的な拡張と縮小を実現した結果、ブラックフライデー期間中のクローリングのピークスループットは12万ページ/分に達した。システムに組み込まれたヘルスチェックインターフェイスとPrometheusのインジケーターエクスポート機能により、コンテナ化された運用と保守のための完全なモニタリングサポートが提供される。
この答えは記事から得たものである。WaterCrawl:ウェブコンテンツを大規模モデルで使用可能なデータに変換について































