Supametas.AIのウェブデータ抽出は、5つの重要なステップで構成されており、そのすべてを視覚的なインターフェイスで実行することができます:
- 新しいデータセットログイン後、"New Dataset "をクリックし、データ・ソース・タイプとして "URL "を選択する。
- 設定パラメータ::
- 対象のウェブアドレスを入力(例:ブログのリンク)
- クロールの深さを設定する(Depth Value=3で、関連ページを3階層クロールする)
- 更新頻度の定義(毎日自動更新の場合はループ時間値=24)
- プライミング工程処理開始」をクリックすると、システムが自動的にページ構造を識別し、タイトル、テキスト、図表、その他の要素を抽出します。
- 結果の最適化::
- 自然言語指示によるきめ細かな抽出(「商品価格と在庫を把握する」など)
- プレビュー画面によるエラーフィールドの手動調整
- エクスポート結果処理後にJSONまたはMarkdown形式でダウンロードするか、OpenAI Storageなどのナレッジベースに直接プッシュするかを選択できます。
実際には、自動データ同期を実現するために「スケジュール更新」機能を有効にすることをお勧めします。eコマース価格モニタリングやその他のシナリオでは、"customKeys "パラメータで特定のフィールド(割引期限など)を定義することができます。
この答えは記事から得たものである。Supametas.AI:非構造化データをLLMの高可用性データに抽出するについて