高级内容提取功能详解
功能价值
该功能允许直接从指定网页抓取纯净文本内容和关联图片资源,解决以下痛点:
- 绕过网站反爬虫机制获取关键信息
- 批量处理多个页面时保持格式统一
- 避免手动清理广告、导航栏等干扰元素
具体实现方法
使用extract()
方法的典型场景:
urls = ["https://example.com/page1", "https://example.com/page2"] response = client.extract( urls=urls, include_images=True, # 是否提取图片 max_text_length=5000 # 控制提取文本长度 )
返回数据结构
- raw_content: 去除HTML标签的纯文本
- images: 图片URL列表(当include_images=True时)
- metadata: 包含文章来源、抓取时间等元信息
注意:单次调用最多支持20个URL,商业版可提升至100个。
本答案来源于文章《Tavily:为AI提供实时信息搜索API服务》