現在のバージョンは、動的コンテンツに対処するために保守的な戦略を採用しており、主に検索APIを通じて基本的なメタデータを取得している。第一段階は、SPAアプリケーションの初期状態をキャプチャするためのDOMスナップショット機能の追加、第二段階は、本文抽出のためのLLMの統合とフローティング要素との干渉の問題の解決、そして最終的にはReact/Vueに基づくコンポーネントレベルの構文解析を実装し、以下を実現する予定である。財務報告データテーブルのような複雑な構造を正確に抽出する。
例えば、Bloomberg.comはリアルタイムのWebSocketデータストリームを処理する必要があり、Benzinga.comは遅延ローディングコメントモジュールを使用している。テストデータによると、プロトタイプバージョンはSeeking Alphaの記事の本文抽出で92%の精度を達成し、従来のxpathソリューションと比較して47%ポイント改善した。コミュニティ開発者は、プラグインシステムを通じてPuppeteerとSeleniumのサポートを拡張しています。
この答えは記事から得たものである。Web Crawler: インターネット情報をリアルタイムで検索するコマンドラインツールについて































