高度なコンテンツ抽出機能の説明
機能的価値
この機能により、指定したウェブページから直接クロールすることができます。プレーン・テキスト・コンテンツ歌で応える関連画像リソース以下のペインポイントに対処する:
- ウェブサイトのクローラー対策機構を回避し、重要な情報を入手する。
- 複数ページを一括処理する際の一貫した書式設定
- 広告やナビゲーションバーなど、邪魔な要素を手動で消すのは避けましょう。
具体的な実施方法
利用するextract()この方法の典型的なシナリオ:
urls = ["https://example.com/page1", "https://example.com/page2"]
response = client.extract(
urls=urls,
include_images=True, # 是否提取图片
max_text_length=5000 # 控制提取文本长度
)
データ構造を返す
- 生コンテンツHTMLタグからプレーンテキストを取り除く
- イメージ:: 画像URLのリスト(include_images=Trueの場合)
- メタデータ記事のソース、クロールされた時期などのメタ情報を含む。
注目してほしい:1回の呼び出しで最大20のURLをサポートし、製品版では100まで増やすことができる。
この答えは記事から得たものである。Tavily:AI向けリアルタイム情報検索APIサービスについて
































